تکنولوژی

شرکت‌های هوش مصنوعی با سنجه‌های جدید به ارزیابی این فناوری می‌پردازند

از آنجایی که هوش مصنوعی در سنجه‌های موجود امتیاز‌های بسیار بالایی را کسب کرده است، شرکت‌های هوش مصنوعی نحوه آزمایش و ارزیابی این مدل‌های را تغییر می‌دهند. با این حال مشکلاتی پیش روی شرکت‌ها است که از جمله آنها می‌توان به نبود یک سنجه واحد برای ارزیابی مدل‌ها اشاره کرد و همچنین به گفته فعالان این حوزه، سنجه‌های هوش مصنوعی پس از مدتی به دلیل تبدیل شدن به هدف برای شرکت‌ها و مدل‌ها، بازدهی و اعتبار خود را از دست می‌دهند.

به گزارش پیوست به نقل از فایننشال تایمز، اوپن‌ای‌آی، مایکروسافت، متا و آنتروپیک همگی به تازگی از برنامه‌های خود برای ساخت عاملیت‌های هوش مصنوعی خبر داده‌اند، عاملیت‌هایی که می‌توانند به صورت خودمختار کارهایی را به نیابت از انسان برعهده بگیرند. این سیستم‌ها برای انجام درست کارها باید اقدامات پیچیده‌تری را با تکیه بر استدلال و برنامه‌ریزی به اجرا بگذارند.

شرکت‌ها این ابزارهای هوش مصنوعی را با کمک کارکنان و پژوهشگران خارجی ارزیابی می‌کنند. این آزمون‌های استاندارد که به عنوان سنجه‌های هوش مصنوعی شناخته می‌شوند، توانایی‌ مدل‌ها عملکرد سیستم شرکت‌های مختلف یا نسخه قدیمی را ارزیابی می‌کنند.

اما پیشرفت‌های اخیر هوش مصنوعی باعث شده تا جدید‌ترین مدل‌ها به دقت ۹۰ درصد یا بیشتر در این آزمون‌ها دست پیدا کنند و درنتیجه نیاز به سنجه‌های جدیدی برای بررسی آنها است.

احمد الداهل، رهبر هوش مصنوعی مولد شرکت متا، می‌گوید: «سرعت این صنعت بسیار بالا است. در حال حاضر توانایی ما برای ارزیابی این مدل‌ها در حال اشباع شدن است و ارزیابی آنها سخت‌تر و سخت‌تر می‌شود.»

چندین شرکت فناوری از جمله متا، اوپن‌ای‌آی و مایکروسافت برای رفع این مشکل سنجه‌ها و آزمون‌های داخلی را برای بررسی هوش این دستگاه‌ها طراحی کرده‌اند. اما این مساله باعث نگرانی‌هایی درمورد امکان مقایسه این ابزارها و نبود سنجه‌های عمومی پدید آورده است.

دن هندریکس، مدیر مسئول مرکز امنیت هوش مصنوعی و از مشاوران شرکت xAI ایلان ماسک، می‌گوید: «بسیاری از این سنجه‌ها نشان می‌دهند که چقدر با خودکارسازی وظایف و مشاغل فاصله داریم. بدون عمومی شدن آنها، کسب‌وکارها و جامعه به سختی می‌توانند این مساله را تشخیص دهند.»

سنجه‌های عمومی امروز (Hellaswag و MMLU) از سوال‌های چند گزینه‌ای برای ارزیابی منطق و دانش ابزارها در موضوعات مختلف استفاده می‌کنند. با این حال محققان معتقدند که این روش در حال منسوخ شدن است و مدل‌های هوش مصنوعی به مسائل پیچیده‌تری نیاز دارند.

مارک چن،‌ شریک استراتژیک تحقیقات اوپن‌ای‌آی، می‌گوید: «ما در حال ورود به عصری هستیم که بسیاری از آزمون‌های نوشته دست انسان دیگر سنجه خوبی برای توانمندی این مدل‌ها نیستند. این موضوع چالش‌ تازه‌ای برای ما در جهان تحقیقات است.»

یکی از سنجه‌های عمومی به نام SWE-bench Verified در ماه آگوست برای درک بهتر از سیستم‌های خودمختار براساس بازخورد شرکت‌هایی مثل اوپن‌ای‌آی بروزرسانی شد.

این سنجه از مسائل نرم‌افزاری واقعی در GitHub استفاده می‌کند و هوش مصنوعی باید این مسائل را حل کند. حل آنها به قدرت استدلال نیاز دارد.

جدیدترین مدل اوپن‌ای‌آی، GPT-4o preview، در این آزمون ۴۱.۴ درصد از مسائل را حل می‌کند و Claude 3.5 Sonnet از آنتروپیک امتیاز ۴۹ درصدی را دریافت کرده است.

جرد کاپلان، مدیر ارشد علوم در شرکت آنتروپیک، می‌گوید: «به دلیل اینکه شما باید این سیستم‌ها را به ابزارهای اضافی متصل کنید، این کار خیلی مشکل‌تر است.»

او افزود: «شما در واقع باید یک محیط سند باکس کامل برای ایفای نقش آنها ایجاد کنید. این کار تنها به سادگی ارائه یک پرامپت، مشاهده پایان کار و ارزیابی آن، نیست.»

فاکتور مهمی دیگری در آزمون‌های پیشرفته، اطمینان از عدم نفوذ آزمون‌ها به داده‌های عمومی است تا مدل نتواند با تولید پاسخ براساس داده‌های آموزشی، در این امتحان‌ها تقلب کند.

امکان استدلال و برنامه‌ریزی در بهره‌برداری از پتانسیل عاملیت‌های هوش مصنوعی با امکان انجام چند‌مرحله‌ای مسائل و اصلاح خود، اهمیت حیاتی دارد.

اکی کامار، نایب‌رئیس آزمایشگاه AI Frontiers در بخش تحقیقاتی مایکروسافت، می‌گوید: «ما در حال پیدا کردن راه‌های تازه‌ای برای سنجش این سیستم‌ها هستیم و البته که یکی از آنها استدلال است که جبهه مهمی محسوب می‌شود.»

برخی از فعالان این حوزه از جمله پژوهشگران اپل، توان «استدلال» را زیر سوال برده و از آن به عنوان «تطابق الگو» با داده‌های مشابه یاد کرده‌اند.

روچیر پوری، پژوهشگر ارشد بخش تحقیقاتی IBM، می‌گوید: «در حوزه‌های محدودی که کسب‌وکارها به آن اهمیت می‌دهند، [این ابزارها] واقعا استدلال دارند. [بحث امروز اما] پیرامون مفهوم گسترده‌تر استدلال در سطح انسانی است که تقریبا در حوزه هوش مصنوعی عمومی (AGI) قرار می‌گیرد. آیا آنها واقع استدلال می‌کنند یا تنها به تقلید مشغولند؟»

اوپن‌ای‌آی بحث استدلال را با ارازیابی‌های حوزه ریاضی،‌ رشته‌های STEM و وظایف کدنویسی ارزیابی می‌کند.

چن از اوپن‌ای‌آی، می‌گوید: «استدلال یک عبارت بسیار گسترده است. همه تعریف متفاوتی برای آن دارند و تفسیر خود را انجام می‌دهند… این مرزبندی بسیار مبهم است و ما تلاش می‌کنیم که کار چندانی با آن تمایز نداشته باشیم بلکه به کاربرد، عملکرد یا قابلیت‌ها بپردازیم.»

لزوم سنجه‌های جدید باعث شده تا سازمان‌های خارجی نیز در این حوزه دست به کار شوند.

در ماه سپتامبر، استارت‌آپ هوش مصنوعی Scale AI and Hendrycks از پروژه‌ای به نام «آخرین آزمون بشریت» خبر داد که سوالات پیچیده‌ای را از متخصصان حوزه‌های مختلف جمع‌آوری کرده بود که حلشان نیازمند استدلال بود.

نمونه دیگری از این تلاش‌ها مربوط به سنجه FrontierMath است که این هفته از سوی ریاضی‌دانان منتشر شد. براساس این آزمون، پیچیده‌ترین مدل‌ها می‌توانند کمتر از ۲ درصد از سوالات را پاسخ دهند.

با این حال متخصصان هشدار داده‌اند که بدون توافق روشن روی نحوه سنجش توانمندی‌ها، ارزیابی رقبا دشوار می‌شود و کسب‌وکارها و مشتریان هم نمی‌توانند درک خوبی از این بازار داشته باشند.

الداهل از متا می‌گوید: «هیچ روش روشنی وجود ندارد که بگویید این مدل بدون شک بهتر از آن مدل است، زیرا وقتی یک سنجه به هدف تبدیل شود، دیگر سنجه خوبی نیست» و مدل‌ها برای عملکرد بهتر براساس آن سنجه آموزش می‌بینند.

توسط
پیوست
منبع
پیوست
نمایش بیشتر

اخبار مرتبط

بازگشت به بالا