پژوهش جدید محققان دانشگاه پرینستون نقصهای متعددی را در بنچمارکهای هوش مصنوعی و شیوههای ارزیابی آنها نشان داده است که مانع میشود در بررسی برنامههای کاربردی در دنیای واقعی مفید باشند. محققان تأکید دارند که این بنچمارکها نسبت هزینه پاسخدادن مدل هوش مصنوعی به دقت آن را در نظر نمیگیرند.
براساس گزارش VentureBeat ، سنجش مدلهای مختلف هوش مصنوعی با بنچمارکهای ثابت نمیتواند نتایج صحیحی در دنیای واقعی ارائه دهد. یکی از مسائل مهمی که محققان در پژوهش خود بر آن تأکید میکنند، درنظرنگرفتن شیوه کنترل هزینه در مدلهای هوش مصنوعی مختلف است.
بهطورکلی محققان هشدار میدهند که این خطاها باعث میشود دقت هوش مصنوعی غلط تخمین زده شود و درباره قابلیتهای هوش مصنوعی خوشبینی بیشازحد باشد.
بنچمارکهای گمراهکننده در ارزیابی هوش مصنوعی
برای افزایش دقت، برخی سیستمهای هوش مصنوعی چندین پاسخ تولید میکنند و از مکانیسمهایی مختلفی برای انتخاب بهترین پاسخ بهره میبرند. گاهی نمونهبرداری از صدها یا هزاران پاسخ میتواند دقت هوش مصنوعی را افزایش دهد. درحالیکه این رویکرد میتواند عملکرد را بهبود بخشد، هزینه محاسباتی قابلتوجهی دارد. این هزینهها در موارد تحقیقاتی که هدف به حداکثررساندن دقت است، مشکلساز نیست.
البته در کاربردهای عمومی، بودجه هر درخواست محدودیتی ندارد. البته ممکن است در برخی موارد برای بالابردن رتبهبندی هوش مصنوعی خاصی، از مکانیسمهای پرهزینه هوش مصنوعی برای افزایش دقت استفاده شود.
محققان میگویند باید بین ارزیابی مدلها با اهداف تحقیقاتی و مدلهای کاربردی عمومی تفاوت قایل شد. در تحقیقات، دقت اهمیت دارد و هزینههای هوش مصنوعی تا حد زیادی نادیده گرفته میشود. بااینحال، هنگام توسعه برنامههای کاربردی در دنیای واقعی، هزینهها نقش مهمی در شیوه پاسخدهی مدل هوش مصنوعی ایفا میکند.
برای نمونه، محققان مطالعهای موردی روی بنچمارک NovelQA (معیاری برای پاسخگویی به سؤالات در متون بسیار طولانی) انجام دادند. آنها دریافتند ممکن است این معیار در ارزیابی مدلهای کاربردی عمومی گمراهکننده باشد.
از سویی، در یادگیری تسکهای جدید، مدلهای یادگیری ماشینی اغلب میانبرهایی پیدا میکنند که به آنها اجازه میدهد در بنچمارکها امتیاز خوبی کسب کنند. بهعبارتی، این مدلها راههایی برای تقلب در آزمونهای بنچمارک پیدا میکند و نتایجی ارائه میدهد که در دنیای واقعی صحیح نیست.