پژوهش جدیدی از مهندسان اپل ماهیت پوشالی قدرت «استدلال» هوش مصنوعی را نمایان کرد
برای مثال در نمونهای که کیویهای کوچکتر را داشتیم، بیشتر مدلها سعی کردند تا میوههای کوچک را از جمع نهایی کسر کنند و به گفته پژوهشگران در «دادههای آموزشی نمونههای مشابهی وجود داشت که نیازمند تبدیل و عملیات کسر بود.» پژوهشگران میگویند این یک «نقص اساسی» است که به «مشکلات جدیتری در فرایندهای استدلال [این مدلها]» اشاره میکند و با تقویت یا اصلاحات قابل حل نیست.
توهم درک
نتایج مقاله GSM-سمبولیک را نمیتوان یک یافته جدید در پژوهشهای هوش مصنوعی دانست.
اوپنایآی و گوگل به تازگی با رونمایی از توانمندیهای «استدلال» پیشرفته، این قابلیت را به عنوان گام بعدی مدلهای هوش مصنوعی خود ارائه کردهاند. اما مطالعه جدیدی توسط شش تن از مهندسین اپل نشان میدهد که «استدلال» ریاضیاتی این مدلهای پیشرفته زبانی تا چه اندازه در مواجهه با تغییرات ناچیز سنجهها پوشالی و غیرقابل اعتماد جلوه میدهد.
به گزارش پیوست به نقل از وایرد ، شکنندگی بالای این نتایج تایید تحقیقات گذشتهای است که نشان میدهند استفاده از الگوی اتصال احتمالمحور LLMها تا چه اندازه خالی از درک مفاهیم پیش زمینهای برای رسیدن به توانمندیهای درست استدلال ریاضیاتی است. پژوهشگران براساس نتایج به دست آمده این فرضیه را مطرح کردند که: «LLMهای امروزی توان استدلال منطقی واقعی را ندارند. آنها در عوض سعی میکنند تا گامهای استدلال مشاهده شده در دادههای آموزشی را تقلید کنند.»
تغییر
در مقاله «GSM-سمبولیک: درک محدودیتهای استدلال ریاضیاتی در مدلهای بزرگ زبانی»، شش پژوهشگر اپل کار خود را با ۸۰۰۰ مساله کلمه ریاضی در سطح مدرسه و پیرو استاندارد GSM8K آغاز میکنند که معمولا سنجهای برای آزمایش توانمندیهای پیچیده استدلال مدلهای بزرگ امروزی است. با این حال در یک رویکرد تازه، آنها بخشی از مجموع آزمونها را به گونهای تنظیم کردند تا به شکل پویا نامها و ارقام را با مقادیر تازهای جایگزین کند. در نتیجه سوالی که در GSM8K درمورد ساخت ۳۱ ساختمان توسط سوفی برای خواهرزادهاش بود، در GSM-سمبولیک ممکن است به سوالی درمورد بیل در حال ساخت ۱۹ ساختمان برای برادرش تبدیل شود.
با این رویکرد از هرگونه «آلودگی احتمالی دادهها» که باعث میشود نتایج سوالات ثابت GSM8K به دادههای آموزشی مدلها راه پیدا کنند، جلوگیری میشود. در عین حال، این تغییرات اتفاقی باعث تغییر سختی استدلال نمیشوند و مدلها از لحاظ نظری باید در GSM سمبولیک نیز همانند عملکرد GSM8K را داشته باشند.
اما پژوهشگران با بررسی ۲۰ مدل پیشتاز بزرگ زبانی براساس GSM-سمبولیک دریافتند که میانگین دقت تمامی مدلها در مقایسه با GSM8K کاهش مییابد و عملکرد مدل بین ۰.۳ درصد تا ۹.۲ در مدلهای مختلف تضعیف میشود. این نتایج همچنین نوسان بالایی را در ۵۰ دور مختلف از اجرای GSM-سمبولیک با نامها و مقادیر نشان داد. در این موارد بین بدترین و بهترین دور یک مدل واحد، تا ۱۵ درصد تفاوت وجود داشت و به دلیلی نامعلوم، مدلها نسبت به تغییر ارقام بیشتر از تغییر نام واکنش نشان دادند.
به گفته محققان، چنین نوسانی بسیار تعجبآور است زیرا «گامهای استدلالی لازم برای حل مساله یکسان است.» اینکه یکسری تغییرات کوچک به نتایج مختلفی منجر میشوند نشان میدهد این مدلها هیچگونه استدلال «متعارفی» ندارند بلکه «سعی دارند با اجرای نوعی الگوی اتصال توزیعی، سوالات و گامهای راهحل مربوط به موارد مشابهی که در دادههای آموزشی وجود دارد را با هم ادغام کنند.»
حواسپرتی
البته که در نگاه کلی میتوان نوسان موجود در آزمونهای GSM-سمبولیک را ناچیز تلقی کرد. برای مثال امتیاز دقت ChatGPT-4o از نمره ۹۵.۲ درصدی در GSM8K به ۹۴.۹ درصد در GSM-سمبولیک کاهش یافت که همچنان خیرهکننده است. چنین نرخ موفقیتی چه با استدلال در پشت صحنه انجام گیرد و چه بدون آن، همچنان جالب توجه است (البته زمانی که پژوهشگران یک یا دو گام استدلالی دیگر را به مسئلهها اضافه کردند،دقت مدلها به شکل قابل توجهی کاهش یافت.)
با این حال عملکرد مدلهای زبانی زمانی کاهش شدید داشت که پژوهشگران اپل سنجه GSM-سمبولیک را با اضافه کردن «اظهارات به نظر مرتبط اما در نهایت بی اهمیت» به سوالات، اصلاح کردند. در این سنجه که «GSM-NoOp» نام گرفت، ممکن است سوالی درمورد اینکه یک فرد چه تعداد کیوی در روزهای مختلف میچیند با جزئیات بی اهمیتی مثل «پنج تای آنها کمی بزرگتر از متوسط بودند»، اصلاح شود.
اضافه کردن این جزئیات بی اهمیت باعث شد تا به گفته محققان «ضعف شدید» عملکردی را برای مدلهای مختلف بین ۱۷.۵ تا ۶۵.۷ درصد تجربه کنیم. پژوهشگران میگوید چنین کاهش دقتی نشان میدهد که استفاده از «الگوی اتصال» ساده برای «تبدیل بیانیهها بدون درک واقعی معنای آنها» چه محدودیتهای ذاتی را به همراه دارد.
برای مثال در نمونهای که کیویهای کوچکتر را داشتیم، بیشتر مدلها سعی کردند تا میوههای کوچک را از جمع نهایی کسر کنند و به گفته پژوهشگران در «دادههای آموزشی نمونههای مشابهی وجود داشت که نیازمند تبدیل و عملیات کسر بود.» پژوهشگران میگویند این یک «نقص اساسی» است که به «مشکلات جدیتری در فرایندهای استدلال [این مدلها]» اشاره میکند و با تقویت یا اصلاحات قابل حل نیست.
توهم درک
نتایج مقاله GSM-سمبولیک را نمیتوان یک یافته جدید در پژوهشهای هوش مصنوعی دانست. مقالات دیگری نیز اشاره میکنند که LLMها در واقع یک استدلال متعارف را انجام نمیدهند و در عوض با یک الگوی اتصال احتمالمحور، به تقلید از نزدیکترین مورد در دادههای آموزشی خود، میپردازند.
با این حال پژوهشگران اپل نشان میدهند که اگر سوالات را در مسیر خلاق دادههای آموزشی سوق دهیم، این تقلید تا چه حد شکننده عمل میکند. همچنین در این پژوهش مشخص میشود که مدلها بدون دسترسی به یک مدل منطقی یا ارتباط با جهان، با چه محدودیتهای ذاتی روبرو هستند. بنجی ادواردز در مقاله ماه جولای خود پیرامون مدلهای مولد ویدیو، از این مساله اینگونه یاد میکند:
ما احتمالا در تازهترین مدلهای استدلالی شاهد یک «توهم درک» هستیم و میبینیم که چطور این توهم در مواجهه با شرایط غیرمنتظره در هم میشکند.
گری مارکوس، متخصص هوش مصنوعی، نیز در تجزیهتحلیل خود از مقاله جدید GSM-سمبولیک، میگوید جهش بعدی در توامندیهای هوش مصنوعی تنها زمانی ممکن میشود که شبکههای عصبی بتوانند بر «دستکاری نمادین [چیره شوند]، که براساس آن یک سری دانستهها بهطور مجرد و به شکل متغییر و عملیاتهای مربوط به آن متغییرها ارائه میشوند، بسیار شبیه به چیزی که در جبر و برنامهنویسی سنتی کامپیوتر میبینیم…» تا آن زمان اما این «استدلال» پوشالی باعث میشود حتی در آزمونهایی که ماشینحساب معمولی اشتباه نمیکند، مدلهای زبانی به مشکل بخورند.