شرکتهای هوش مصنوعی با سنجههای جدید به ارزیابی این فناوری میپردازند
از آنجایی که هوش مصنوعی در سنجههای موجود امتیازهای بسیار بالایی را کسب کرده است، شرکتهای هوش مصنوعی نحوه آزمایش و ارزیابی این مدلهای را تغییر میدهند. با این حال مشکلاتی پیش روی شرکتها است که از جمله آنها میتوان به نبود یک سنجه واحد برای ارزیابی مدلها اشاره کرد و همچنین به گفته فعالان این حوزه، سنجههای هوش مصنوعی پس از مدتی به دلیل تبدیل شدن به هدف برای شرکتها و مدلها، بازدهی و اعتبار خود را از دست میدهند.
به گزارش پیوست به نقل از فایننشال تایمز، اوپنایآی، مایکروسافت، متا و آنتروپیک همگی به تازگی از برنامههای خود برای ساخت عاملیتهای هوش مصنوعی خبر دادهاند، عاملیتهایی که میتوانند به صورت خودمختار کارهایی را به نیابت از انسان برعهده بگیرند. این سیستمها برای انجام درست کارها باید اقدامات پیچیدهتری را با تکیه بر استدلال و برنامهریزی به اجرا بگذارند.
شرکتها این ابزارهای هوش مصنوعی را با کمک کارکنان و پژوهشگران خارجی ارزیابی میکنند. این آزمونهای استاندارد که به عنوان سنجههای هوش مصنوعی شناخته میشوند، توانایی مدلها عملکرد سیستم شرکتهای مختلف یا نسخه قدیمی را ارزیابی میکنند.
اما پیشرفتهای اخیر هوش مصنوعی باعث شده تا جدیدترین مدلها به دقت ۹۰ درصد یا بیشتر در این آزمونها دست پیدا کنند و درنتیجه نیاز به سنجههای جدیدی برای بررسی آنها است.
احمد الداهل، رهبر هوش مصنوعی مولد شرکت متا، میگوید: «سرعت این صنعت بسیار بالا است. در حال حاضر توانایی ما برای ارزیابی این مدلها در حال اشباع شدن است و ارزیابی آنها سختتر و سختتر میشود.»
چندین شرکت فناوری از جمله متا، اوپنایآی و مایکروسافت برای رفع این مشکل سنجهها و آزمونهای داخلی را برای بررسی هوش این دستگاهها طراحی کردهاند. اما این مساله باعث نگرانیهایی درمورد امکان مقایسه این ابزارها و نبود سنجههای عمومی پدید آورده است.
دن هندریکس، مدیر مسئول مرکز امنیت هوش مصنوعی و از مشاوران شرکت xAI ایلان ماسک، میگوید: «بسیاری از این سنجهها نشان میدهند که چقدر با خودکارسازی وظایف و مشاغل فاصله داریم. بدون عمومی شدن آنها، کسبوکارها و جامعه به سختی میتوانند این مساله را تشخیص دهند.»
سنجههای عمومی امروز (Hellaswag و MMLU) از سوالهای چند گزینهای برای ارزیابی منطق و دانش ابزارها در موضوعات مختلف استفاده میکنند. با این حال محققان معتقدند که این روش در حال منسوخ شدن است و مدلهای هوش مصنوعی به مسائل پیچیدهتری نیاز دارند.
مارک چن، شریک استراتژیک تحقیقات اوپنایآی، میگوید: «ما در حال ورود به عصری هستیم که بسیاری از آزمونهای نوشته دست انسان دیگر سنجه خوبی برای توانمندی این مدلها نیستند. این موضوع چالش تازهای برای ما در جهان تحقیقات است.»
یکی از سنجههای عمومی به نام SWE-bench Verified در ماه آگوست برای درک بهتر از سیستمهای خودمختار براساس بازخورد شرکتهایی مثل اوپنایآی بروزرسانی شد.
این سنجه از مسائل نرمافزاری واقعی در GitHub استفاده میکند و هوش مصنوعی باید این مسائل را حل کند. حل آنها به قدرت استدلال نیاز دارد.
جدیدترین مدل اوپنایآی، GPT-4o preview، در این آزمون ۴۱.۴ درصد از مسائل را حل میکند و Claude 3.5 Sonnet از آنتروپیک امتیاز ۴۹ درصدی را دریافت کرده است.
جرد کاپلان، مدیر ارشد علوم در شرکت آنتروپیک، میگوید: «به دلیل اینکه شما باید این سیستمها را به ابزارهای اضافی متصل کنید، این کار خیلی مشکلتر است.»
او افزود: «شما در واقع باید یک محیط سند باکس کامل برای ایفای نقش آنها ایجاد کنید. این کار تنها به سادگی ارائه یک پرامپت، مشاهده پایان کار و ارزیابی آن، نیست.»
فاکتور مهمی دیگری در آزمونهای پیشرفته، اطمینان از عدم نفوذ آزمونها به دادههای عمومی است تا مدل نتواند با تولید پاسخ براساس دادههای آموزشی، در این امتحانها تقلب کند.
امکان استدلال و برنامهریزی در بهرهبرداری از پتانسیل عاملیتهای هوش مصنوعی با امکان انجام چندمرحلهای مسائل و اصلاح خود، اهمیت حیاتی دارد.
اکی کامار، نایبرئیس آزمایشگاه AI Frontiers در بخش تحقیقاتی مایکروسافت، میگوید: «ما در حال پیدا کردن راههای تازهای برای سنجش این سیستمها هستیم و البته که یکی از آنها استدلال است که جبهه مهمی محسوب میشود.»
برخی از فعالان این حوزه از جمله پژوهشگران اپل، توان «استدلال» را زیر سوال برده و از آن به عنوان «تطابق الگو» با دادههای مشابه یاد کردهاند.
روچیر پوری، پژوهشگر ارشد بخش تحقیقاتی IBM، میگوید: «در حوزههای محدودی که کسبوکارها به آن اهمیت میدهند، [این ابزارها] واقعا استدلال دارند. [بحث امروز اما] پیرامون مفهوم گستردهتر استدلال در سطح انسانی است که تقریبا در حوزه هوش مصنوعی عمومی (AGI) قرار میگیرد. آیا آنها واقع استدلال میکنند یا تنها به تقلید مشغولند؟»
اوپنایآی بحث استدلال را با ارازیابیهای حوزه ریاضی، رشتههای STEM و وظایف کدنویسی ارزیابی میکند.
چن از اوپنایآی، میگوید: «استدلال یک عبارت بسیار گسترده است. همه تعریف متفاوتی برای آن دارند و تفسیر خود را انجام میدهند… این مرزبندی بسیار مبهم است و ما تلاش میکنیم که کار چندانی با آن تمایز نداشته باشیم بلکه به کاربرد، عملکرد یا قابلیتها بپردازیم.»
لزوم سنجههای جدید باعث شده تا سازمانهای خارجی نیز در این حوزه دست به کار شوند.
در ماه سپتامبر، استارتآپ هوش مصنوعی Scale AI and Hendrycks از پروژهای به نام «آخرین آزمون بشریت» خبر داد که سوالات پیچیدهای را از متخصصان حوزههای مختلف جمعآوری کرده بود که حلشان نیازمند استدلال بود.
نمونه دیگری از این تلاشها مربوط به سنجه FrontierMath است که این هفته از سوی ریاضیدانان منتشر شد. براساس این آزمون، پیچیدهترین مدلها میتوانند کمتر از ۲ درصد از سوالات را پاسخ دهند.
با این حال متخصصان هشدار دادهاند که بدون توافق روشن روی نحوه سنجش توانمندیها، ارزیابی رقبا دشوار میشود و کسبوکارها و مشتریان هم نمیتوانند درک خوبی از این بازار داشته باشند.
الداهل از متا میگوید: «هیچ روش روشنی وجود ندارد که بگویید این مدل بدون شک بهتر از آن مدل است، زیرا وقتی یک سنجه به هدف تبدیل شود، دیگر سنجه خوبی نیست» و مدلها برای عملکرد بهتر براساس آن سنجه آموزش میبینند.