محققان دریافتهاند که با وجود تمام پیشرفتهایی که گفته میشود توسط مدلهای زبان بزرگ (LLMs) حاصل شده است، هوش مصنوعی مولدی (GenAI) هنوز باید چیزهای زیادی یاد بگیرد و هنوز نمیتوان به آنها به طور کامل اعتماد کرد.
این مطالعه میتواند پیامدهای جدی برای مدلهای هوش مصنوعی مولدی که در دنیای واقعی به کار گرفته میشوند، داشته باشد.
این به خصوص به این دلیل است که یک مدل زبان بزرگ که به نظر میرسد در یک زمینه خوب عمل میکند، ممکن است در صورت تغییر جزئی در وظیفه یا محیط خراب شود.
این مطالعه توسط محققانی از دانشگاه هاروارد، موسسه فناوری ماساچوست (MIT)، دانشگاه بوث شیکاگو و دانشگاه کرنل انجام میشود.
مشکلات با مدلهای زبان بزرگ
مدلهای زبان بزرگ نشان دادهاند که میتوانند در انجام فعالیتهای مختلف مانند نوشتن، تولید برنامههای کامپیوتری و فعالیتهای دیگر عملکرد خوبی داشته باشند.
این میتواند باعث شود این مدلها به نظر برسد که برخی از حقایق عمومی جهان را یاد میگیرند، اما مطالعه نتیجه متفاوتی را نشان داد.
برای مطالعه جدید، محققان دریافتهاند که نوعی مدل هوش مصنوعی مولدی معروف میتواند جهتیابی دقیق در شهر نیویورک را بدون داشتن نقشه داخلی دقیق انجام دهد.
با این حال، زمانی که محققان برخی خیابانها را بستند و راهبندانهایی افزودند، عملکرد ناوبری مدل به شدت کاهش یافت.
بر اساس تحقیقات، نقشه نیویورکی که توسط مدل زبان بزرگ تولید شده بود، شامل "خیابانهای غیرموجود متعددی بود که بین شبکه خمیده بودند و تقاطعهای دو شده را متصل میکردند."
"این سوال که آیا مدلهای زبان بزرگ در حال یادگیری مدلهای جهانی هماوردینی هستند بسیار مهم است اگر بخواهیم از این تکنیکها برای کشفهای جدید استفاده کنیم،" گفته
مطالعه بر روی نوع خاصی از مدل هوش مصنوعی مولدی متمرکز است
برای مطالعه، محققان بر روی نوعی مدل هوش مصنوعی مولدی معروف به ترانسفورمر متمرکز شدند، که ستون فقرات مدلهای زبان بزرگ مانند GPT-4 را تشکیل میدهد.
بر اساس اطلاعیه مطبوعاتی MIT، ترانسفورمرها با مقدار زیادی داده مبتنی بر زبان آموزش دیدهاند تا توکن بعدی را در یک دنباله پیشبینی کنند، مانند کلمه بعدی در جمله.
با این حال، زمانی که به دنیائی کردن آیا مدل زبان بزرگ یک مدل دقیق از جهان تشکیل داده است یا نه، بررسی دقیق پیشبینیهای آن کافی نیست، بر اساس گفته محققان.
در مثالی دیگر، آنها دریافتند که یک ترانسفورمر میتواند حرکتهای معتبر را در یک بازی "کانکت ۴" تقریباً در هر بار بدون درک هیچ یک از قوانین پیشبینی کند.
بنابراین، تیم دو معیار جدید توسعه دادند که میتواند مدل جهانی یک ترانسفورمر را آزمایش کند. این معیارها بر روی کلاس مسائلی تحت عنوان خودپردازهای قطعی متمرکز شدند.
یافتهها در طول مطالعه
در یک جریان تعجب آور، محققان دریافتند که ترانسفورمرها که به طور تصادفی انتخاب میکردند، مدلهای جهانی دقیقتری تشکیل دادهاند.
حتی اگر ترانسفورمرها مسیرها و حرکتهای معتبر در بازی "اتلو" را در تقریباً هر مورد به درستی تولید کردند، دو معیار نشان دادند که تنها یک مدل جهانی هماهنگ برای حرکتهای اتلو تولید شده است و هیچ یک در ایجاد مدلهای جهانی هماهنگ در مثال یافتن مسیر خوب عمل نکرده است.
محققان سپس این را با افزودن راهبندانها به نقشه شهر نیویورک نشان دادند، که باعث شد تمام مدلهای ناوبری شکست بخورند.
" اگر فقط ۱% از خیابانهای ممکن را ببندیم، دقت فوراً از تقریباً ۱۰۰٪ به تنها ۶۷٪ کاهش مییابد،" یکی از محققان گفت.
این، بر اساس گفته محققان، نشان میدهد که دانشمندان باید برای ایجاد مدلهای زبان بزرگ که میتوانند مدلهای جهانی دقیق را بگیرند، رویکردی متفاوت را پیش بگیرند.
" اغلب، ما این مدلها را میبینیم که کارهای چشمگیری انجام میدهند و فکر میکنیم که باید چیزی در مورد جهان را فهمیده باشند. امیدوارم ما بتوانیم مردم را قانع کنیم که این سوالی است که باید بسیار با دقت به آن فکر کنند و نیازی نداریم به شهودهای خودمان برای پاسخ دادن به آن تکیه کنیم،" یکی دیگر از محققان افزود.
در آینده، محققان میخواهند معیارهای ارزیابی خود را به مسائل علمی دنیای واقعی اعمال کنند.