تیمی از محققان در دانشگاههای استنفورد و واشنگتن مدل استدلال هوش مصنوعی به نام s1 را با هزینهی کمتر از ۵۰ دلار توسعه دادهاند.
این یک دستاورد بزرگ است، با توجه به اینکه این نظر وجود دارد که منابع مالی بزرگ برای توسعه مدلهای استدلال هوش مصنوعی ضروری هستند.
s1 برای وظایف استدلال پیچیده طراحی شده است و قادر به حل مسائل و پاسخ دادن به سوالاتی است که نیاز به تفکر منطقی دارند.
در آزمایشهای شامل ریاضیات و برنامهنویسی، عملکرد s1 با مدلهای پیشرفتهای مانند o1 از OpenAI و R1 از DeepSeek مشابه است.
تیم تحقیقاتی اظهار داشتند: «با این حال، پیشرفتهای اخیر در استدلال مانند o1 از OpenAI و r1 از DeepSeek شفافیت کافی ندارند، محدودیتی برای پیشرفت تحقیقات گستردهتر ایجاد میکنند.»
هزینه توسعه s1 به طرز چشمگیری پایین است
محققان با استفاده از تکنیکی به نام «تقطیر» این سطح از عملکرد را به دست آوردند. این شامل آموزش s1 برای تکرار تواناییهای استدلال یک مدل هوش مصنوعی دیگر است، در این مورد مدل Flash Thinking Experimental گوگل Gemini 2.0.
s1 با یک مجموعه داده منتخب شامل ۱۰۰۰ سوال و پاسخ، به همراه فرآیند «تفکر» مدل جمینی آموزش داده شد. این به آن این امکان را داد که یاد بگیرد چگونه به راهحلهای دقیق برسد.
تیم اظهار داشتند: «ما یک مجموعه داده کوچک به نام s1K شامل ۱۰۰۰ سوال مرتبط با ردپایهای استدلالی بر اساس سه معیار که از طریق تجربیات مختلف تایید میکنیم: دشواری، تنوع و کیفیت، گردآوری میکنیم.»
برای بهینهسازی فرآیند آموزش، محققان از تنظیم دقت تحت نظارت (SFT) استفاده کردند. این روش شامل ارائه مدل هوش مصنوعی با دستورالعملها و مثالهای مشخص است. این اجازه میدهد تا یادگیری سریعتر و کارآمدتر نسبت به سایر تکنیکها مانند یادگیری تقویتی انجام شود.
با استفاده از SFT، محققان s1 را در کمتر از ۳۰ دقیقه با استفاده از ۱۶ GPU Nvidia H100 آموزش دادند، با هزینه محاسباتی کلی حدود ۲۰ دلار.
در مطالعه ذکر شد که «آموزش تنها ۲۶ دقیقه در ۱۶ GPU NVIDIA H100 طول میکشد».
تاثیر دستورالعمل "انتظار"
یک مشاهده جالب در طول توسعه s1 تاثیر افزودن دستورالعمل «انتظار» در فرآیند استدلال مدل بود.
این اضافهی ساده بهبود قابل توجهی در دقت ایجاد کرد. این نشان میدهد که ارائه لحظهای مکث برای مدل و تامل، توانایی آن در رسیدن به پاسخهای صحیح را افزایش میدهد.
محققان توضیح دادند: «ما بودجهبندی را توسعه میدهیم تا با اجبار به توقف یاتمدید فرآیند تفکر مدل به وسیله افزودن مکرر دستورالعمل "انتظار" به نسل مدل، محاسبات تست زمان کنترل شود.”
“این میتواند مدل را به دو برابر کردن پاسخ خود وادارد و اغلب مراحل استدلال نادرست را اصلاح کند.”
رقابت برای مدلهای استدلال کارآمد
این توسعه در میان رقابت تشدید شده برای توسعه مدلهای استدلال کارآمد با هزینهی کمتر از میلیونها دلار که معمولاً توسط آزمایشگاههای بزرگ هوش مصنوعی صرف میشود، رخ داده است.
تیم نتیجهگیری کرد: “کار ما به دنبال توسعه مرزهای استدلال به صورت کاملاً باز پیش میرود، نوآوری و همکاری را تسهیل میکند تا پیشرفتها را تسریع بخشد که در نهایت به جامعه سود میرساند.”
قابل توجه است که تنها هفته گذشته، استارتاپ چینی DeepSeek موج بزرگی در سراسر جهان ایجاد کرد با رونمایی از مدل استدلال هوش مصنوعی خود R1.
طبق گزارش DeepSeek، هزینه آموزشی برای توسعه R1 تنها حدود ۶ میلیون دلار بود، که بسیار کمتر از هزینههایی است که OpenAI، گوگل، متا و سایرین برای مدلهای هوش مصنوعی خود صرف میکنند.
با این حال، برخی گزارشها ادعاهای DeepSeek را به چالش کشیدهاند و گزارش دادهاند که هزینه کل انجام شده برای R1 میتواند حدود ۱.۳ میلیارد دلار باشد.
علاوه بر این، ادعا شده است که DeepSeek برای کارایی و هزینه، ویژگیهای ایمنی و امنیتی را به خطر انداخته است. در طول یک آزمون انجام شده توسط سیسکو ، R1 در برابر حملهها به طور کامل موفق بود، به این معنی که در جلوگیری از حتی یک نشانۀ مضر ناکام بوده است.