پژوهش جدیدی از مهندسان اپل ماهیت پوشالی قدرت «استدلال» هوش مصنوعی را نمایان کرد

اوپن‌ای‌آی و گوگل به تازگی با رونمایی از توانمندی‌های «استدلال» پیشرفته، این قابلیت را به عنوان گام بعدی مدل‌های هوش مصنوعی خود ارائه کرده‌اند. اما مطالعه‌ جدیدی توسط شش تن از مهندسین اپل نشان می‌دهد که «استدلال» ریاضیاتی این مدل‌های پیشرفته زبانی تا چه اندازه در مواجهه با تغییرات ناچیز سنجه‌ها پوشالی و غیرقابل اعتماد جلوه می‌دهد.

به گزارش پیوست به نقل از وایرد ، شکنندگی بالای این نتایج تایید تحقیقات گذشته‌ای است که نشان می‌دهند استفاده از الگوی اتصال احتمال‌محور LLMها تا چه اندازه خالی از درک مفاهیم پیش زمینه‌ای برای رسیدن به توانمندی‌های درست استدلال ریاضیاتی است. پژوهشگران براساس نتایج به دست آمده این فرضیه را مطرح کردند که: «LLMهای امروزی توان استدلال منطقی واقعی را ندارند. آنها در عوض سعی می‌کنند تا گام‌های استدلال مشاهده شده در داده‌های آموزشی را تقلید کنند.»

تغییر

در مقاله‌ «GSM-سمبولیک: درک محدودیت‌های استدلال ریاضیاتی در مدل‌های بزرگ زبانی»، شش پژوهشگر اپل کار خود را با ۸۰۰۰ مساله کلمه ریاضی در سطح مدرسه و پیرو استاندارد GSM8K آغاز می‌کنند که معمولا سنجه‌ای برای آزمایش توانمندی‌های پیچیده استدلال مدل‌های بزرگ امروزی است. با این حال در یک رویکرد تازه، آنها بخشی از مجموع آزمون‌ها را به گونه‌ای تنظیم کردند تا به شکل پویا نام‌ها و ارقام را با مقادیر تازه‌ای جایگزین کند. در نتیجه سوالی که در GSM8K درمورد ساخت ۳۱ ساختمان توسط سوفی برای خواهر‌زاده‌اش بود، در GSM-سمبولیک ممکن است به سوالی درمورد بیل در حال ساخت ۱۹ ساختمان برای برادرش تبدیل شود.

با این رویکرد از هرگونه «آلودگی احتمالی داده‌ها» که باعث می‌شود نتایج سوالات ثابت GSM8K به داده‌های آموزشی مدل‌ها راه پیدا کنند، جلوگیری می‌شود. در عین حال، این تغییرات اتفاقی باعث تغییر سختی استدلال نمی‌شوند و مدل‌ها از لحاظ نظری باید در GSM سمبولیک نیز همانند عملکرد GSM8K را داشته باشند.

اما پژوهشگران با بررسی ۲۰ مدل پیشتاز بزرگ زبانی براساس GSM-سمبولیک دریافتند که میانگین دقت تمامی مدل‌ها در مقایسه با GSM8K کاهش می‌یابد و عملکرد مدل بین ۰.۳ درصد تا ۹.۲ در مدل‌های مختلف تضعیف می‌شود. این نتایج همچنین نوسان بالایی را در ۵۰ دور مختلف از اجرای GSM-سمبولیک با نام‌ها و مقادیر نشان داد. در این موارد بین بدترین و بهترین دور یک مدل واحد، تا ۱۵ درصد تفاوت وجود داشت و به دلیلی نامعلوم، مدل‌ها نسبت به تغییر ارقام بیشتر از تغییر نام واکنش نشان دادند.

به گفته محققان، چنین نوسانی بسیار تعجب‌آور است زیرا «گام‌های استدلالی لازم برای حل مساله یکسان است.» اینکه یکسری تغییرات کوچک به نتایج مختلفی منجر می‌شوند نشان می‌دهد این مدل‌ها هیچگونه استدلال «متعارفی» ندارند بلکه «سعی دارند با اجرای نوعی الگوی اتصال توزیعی،‌ سوالات و گام‌های راه‌حل مربوط به موارد مشابهی که در داده‌های آموزشی وجود دارد را با هم ادغام کنند.»

حواس‌پرتی

البته که در نگاه کلی می‌توان نوسان موجود در آزمون‌های GSM-سمبولیک را ناچیز تلقی کرد. برای مثال  امتیاز دقت ChatGPT-4o از نمره ۹۵.۲ درصدی در GSM8K به ۹۴.۹ درصد در GSM-سمبولیک کاهش یافت که همچنان خیره‌کننده است. چنین نرخ موفقیتی چه با استدلال در پشت صحنه انجام گیرد و چه بدون آن، همچنان جالب توجه است (البته زمانی که پژوهشگران یک یا دو گام استدلالی دیگر را به مسئله‌ها اضافه کردند،‌دقت مدل‌ها به شکل قابل توجهی کاهش یافت.)

با این حال عملکرد مدل‌های زبانی زمانی کاهش شدید داشت که پژوهشگران اپل سنجه GSM-سمبولیک را با اضافه کردن «اظهارات به نظر مرتبط اما در نهایت بی اهمیت» به سوالات، اصلاح کردند. در این سنجه که «GSM-NoOp» نام گرفت، ممکن است سوالی درمورد اینکه یک فرد چه تعداد کیوی در روزهای مختلف می‌چیند با جزئیات بی اهمیتی مثل «پنج تای آنها کمی بزرگتر از متوسط بودند»، اصلاح شود.

اضافه کردن این جزئیات بی اهمیت باعث شد تا به گفته محققان «ضعف شدید» عملکردی را برای مدل‌های مختلف بین ۱۷.۵ تا ۶۵.۷ درصد تجربه کنیم. پژوهشگران می‌گوید چنین کاهش دقتی نشان می‌دهد که استفاده از «الگوی اتصال» ساده برای «تبدیل بیانیه‌ها بدون درک واقعی معنای آنها» چه محدودیت‌های ذاتی را به همراه دارد.

برای مثال در نمونه‌ای که کیوی‌های کوچکتر را داشتیم، بیشتر مدل‌ها سعی کردند تا میوه‌های کوچک را از جمع نهایی کسر کنند و به گفته پژوهشگران در «داده‌های آموزشی نمونه‌های مشابهی وجود داشت که نیازمند تبدیل و عملیات کسر بود.» پژوهشگران می‌گویند این یک «نقص اساسی» است که به «مشکلات جدی‌تری در فرایند‌های استدلال [این مدل‌ها]» اشاره می‌کند و با تقویت یا اصلاحات قابل حل نیست.

توهم درک

نتایج مقاله GSM-سمبولیک را نمی‌توان یک یافته جدید در پژوهش‌های هوش مصنوعی دانست. مقالات دیگری نیز اشاره می‌کنند که LLMها در واقع یک استدلال متعارف را انجام نمی‌دهند و در عوض با یک الگوی اتصال احتمال‌محور، به تقلید از نزدیک‌ترین مورد در داده‌های آموزشی خود، می‌پردازند.

با این حال پژوهشگران اپل نشان می‌دهند که اگر سوالات را در مسیر خلاق داده‌های آموزشی سوق دهیم، این تقلید تا چه حد شکننده عمل می‌کند. همچنین در این پژوهش مشخص می‌شود که مدل‌ها بدون دسترسی به یک مدل منطقی یا ارتباط با جهان، با چه محدودیت‌های ذاتی روبرو هستند. بنجی ادواردز در مقاله ماه جولای خود پیرامون مدل‌های مولد ویدیو، از این مساله اینگونه یاد می‌کند:

ما احتمالا در تازه‌ترین مدل‌های استدلالی شاهد یک «توهم درک» هستیم و می‌بینیم که چطور این توهم در مواجهه با شرایط غیرمنتظره در هم می‌شکند.

گری مارکوس، متخصص هوش مصنوعی، نیز در تجزیه‌تحلیل خود از مقاله جدید GSM-سمبولیک، می‌گوید جهش بعدی در توامندی‌های هوش مصنوعی تنها زمانی ممکن می‌شود که شبکه‌های عصبی بتوانند بر «دستکاری نمادین [چیره شوند]، که براساس آن یک سری دانسته‌ها به‌طور مجرد و به شکل متغییر و عملیات‌های مربوط به آن متغییر‌ها ارائه می‌شوند، بسیار شبیه به چیزی که در جبر و برنامه‌نویسی سنتی کامپیوتر می‌بینیم…» تا آن زمان اما این «استدلال» پوشالی باعث می‌شود حتی در آزمون‌هایی که ماشین‌حساب معمولی اشتباه نمی‌کند، مدل‌های زبانی به مشکل بخورند.

توسط
پیوست
منبع
پیوست
Exit mobile version