مدلهای O3 پیشنهاد میدهند که مدلهای هوش مصنوعی به روشهای جدید مقیاس میشوند — اما هزینهها نیز مقیاس میشود
ماه گذشته، بنیانگذاران و سرمایهگذاران هوش مصنوعی به TechCrunch گفتند که ما اکنون در «دومین دوره قوانین مقیاسگذاری» هستیم و اشاره کردند که روشهای موجود برای بهبود مدلهای هوش مصنوعی در حال نشاندادن کاهش بازده هستند. یک روش جدید امیدوارکننده که پیشنهاد کردند میتواند دستاوردها را نگه دارد، «مقیاسگذاری در زمان آزمون» بود که به نظر میرسد پشت عملکرد مدل o3 OpenAI باشد — اما این نیز با معایب خاص خودش همراه است.
بسیاری از دنیای هوش مصنوعی اعلامیه مدل o3 OpenAI را به عنوان اثباتی دانستند که پیشرفت در مقیاسگذاری هوش مصنوعی «به دیوار نخورده است». مدل o3 در بنچمارکها عملکرد خوبی دارد، که بهطور قابلملاحظهای تمام مدلهای دیگر را در آزمون توانایی عمومی به نام ARC-AGI شکست میدهد، و در یک آزمون ریاضی دشوار ۲۵٪ امتیاز کسب میکند که هیچ مدل دیگری بیش از ۲٪ کسب نکرده بود.
البته، ما در TechCrunch همه اینها را با کمی تردید پذیرفتهایم تا بتوانیم خودمان o3 را آزمون کنیم (تعداد بسیار کمی تا کنون آن را امتحان کردهاند). اما حتی پیش از انتشار o3، دنیای هوش مصنوعی قبلاً معتقد شده که چیزی بزرگ تغییر کرده است.
نوام براون، همخالق مدلهای سری o OpenAI در جمعه اعلام کرد که استارتآپ در حال اعلام دستاوردهای چشمگیر o3 تنها سه ماه پس از اعلام o1 است — یک بازه زمانی نسبتاً کوتاه برای چنین جهش در عملکرد.
«ما هر دلیلی داریم که باور کنیم این مسیر ادامه خواهد داشت»، براون در یک توییت گفت.
جک کلارک، همبنیانگذار Anthropic، در یک پست وبلاگی در روز دوشنبه گفت که o3 شواهدی است که پیشرفت هوش مصنوعی در سال ۲۰۲۵ سریعتر از سال ۲۰۲۴ خواهد بود. (به خاطر داشته باشید که این به نفع Anthropic است — به ویژه توانایی آن در جمعآوری سرمایه — به این گفته که قوانین مقیاسگذاری هوش مصنوعی ادامه دارند، حتی اگر کلارک رقیب خود را تمجید کند.)
سال آینده، کلارک میگوید دنیای هوش مصنوعی روشهای مقیاسگذاری در زمان آزمون و مقیاسگذاری پیشآموزشی سنتی را با هم ترکیب خواهد کرد تا حتی بازده بیشتری از مدلهای هوش مصنوعی بهدست آورد. شاید او پیشنهاد میکند که Anthropic و دیگر ارائهدهندگان مدلهای هوش مصنوعی مدلهای استدلال خود را در سال ۲۰۲۵ منتشر خواهند کرد، درست مانند گوگل که هفته گذشته این کار را انجام داد.
مقیاسگذاری در زمان آزمون به این معناست که OpenAI در طول مرحله استنتاج ChatGPT، یعنی زمانی بعد از فشردن کلید Enter بر روی یک درخواست، از محاسبات بیشتری استفاده میکند. دقیقاً مشخص نیست که چه چیزی پشت صحنه در حال رخ دادن است: OpenAI یا از چیپهای کامپیوتری بیشتری برای پاسخ به سؤال یک کاربر استفاده میکند، چیپهای استنتاج قویتری را اجرا میکند و یا این چیپها را برای مدتهای طولانیتری اجرا میکند – در بعضی موارد ۱۰ تا ۱۵ دقیقه – قبل از اینکه هوش مصنوعی پاسخی ارائه دهد. ما جزئیات کامل چگونگی ساخته شدن o3 را نمیدانیم، اما این آزمونها نشانه اولیهای هستند که شاید مقیاسگذاری در زمان آزمون بتواند عملکرد مدلهای هوش مصنوعی را بهبود بخشد.
در حالی که o3 ممکن است برخیها را به پیشرفت قوانین مقیاسگذاری هوش مصنوعی امیدوار کند، مدل جدید OpenAI همچنین از سطحی از محاسبات استفاده میکند که قبلاً دیده نشده بود و این به معنای قیمت بالاتر به ازای هر پاسخ است.
تنها وقف مهم اینجا ممکن است فهمیدن این باشد که یکی از دلایلی که O3 اینقدر بهتر است این است که اجرای آن در زمان استنتاج بیشتر هزینه دارد – توانایی استفاده از محاسبات در زمان آزمون به معنای این است که در برخی مشکلات شما میتوانید محاسبات را به پاسخ بهتر تبدیل کنید،» کلارک در وبلاگ خود مینویسد. «این جالب است زیرا این باعث شده که هزینههای اجرای سامانههای هوش مصنوعی کمی کمتر قابل پیشبینی باشد – قبلاً، شما میتوانستید هزینه ارائه یک مدل تولیدی را صرفاً با نگاه کردن به مدل و هزینه تولید یک خروجی معین محاسبه کنید.»
کلارک و دیگران به عملکرد o3 بر روی بنچمارک ARC-AGI – آزمونی دشوار که برای ارزیابی پیشرفتها در AGI استفاده میشود – به عنوان شاخصی از پیشرفت آن اشاره کردند. قابل ذکر است که گذراندن این آزمون، طبق گفتهی خالقان آن، به معنی دستیابی مدل هوش مصنوعی به AGI نیست، بلکه یکی از روشهای اندازهگیری پیشرفت به سمت هدف مجهول است. با این گفته، مدل o3 از تمام مدلهای هوش مصنوعی قبلی که این آزمون را انجام داده بودند بسیار پیشی گرفت، و در یکی از تلاشهای خود ۸۸٪ نمره آورد. مدل هوش مصنوعی بعدی OpenAI، o1، تنها ۳۲٪ نمره آورد.
اما محور x لگاریتمی در این نمودار ممکن است برای برخی هشداردهنده باشد. نسخهای از o3 که امتیاز بالایی کسب کرده بود بیش از ۱۰۰۰ دلار محاسبات برای هر کار استفاده میکرد. مدلهای o1 حدود ۵ دلار محاسبات برای هر کار استفاده کرده بودند و o1-mini تنها چند سنت.
خالق بنچمارک ARC-AGI، فرانسوا چولت، در یک وبلاگ مینویسد که OpenAI تقریباً ۱۷۰ برابر محاسبه بیشتری برای تولید آن امتیاز ۸۸٪ استفاده کرد، در مقایسه با نسخه با کارآمدی بالای o3 که تنها ۱۲٪ پایینتر نمره آورد. نسخهای از o3 که امتیاز بالایی کسب کرده بود بیش از ۱۰۰۰۰ دلار منابع برای تکمیل آزمون مصرف کرد که آن را برای رقابت ARC Prize – رقابت شکستخوردهای برای مدلهای هوش مصنوعی برای شکست دادن آزمون ARC – خیلی گران میکند.
با این حال، چولت میگوید که o3 هنوز یک پیشرفت برای مدلهای هوش مصنوعی بود.
«o3 سیستمی است که قادر به تطبیق با کارهایی است که قبلاً هرگز با آنها مواجه نشده بود، احتمالاً نزدیک به عملکرد در سطح انسانی در دامنه ARC-AGI،» چولت در این وبلاگ گفت. «البته، چنین کلیتی با هزینه سنگینی همراه است و هنوز کاملاً اقتصادی نیست: شما میتوانید به یک انسان برای حل کارهای ARC-AGI تقریباً ۵ دلار برای هر کار پرداخت کنید (ما این کار را کردیم)، در حالی که تنها چند سنت در مصرف انرژی مصرف میکند.»
پیش از آنکه به قیمتگذاری دقیق همه اینها مشغول شویم زود است – ما قیمتها برای مدلهای هوش مصنوعی را در سال گذشته دیدیم که به شدت کاهش یافتهاند و OpenAI هنوز اعلام نکرده که o3 چقدر هزینه خواهد داشت. با این حال، این قیمتها نشاندهنده این است که چقدر محاسبه برای شکستن، حتی اندکی، محدودیتهای عملکردی که توسط مدلهای پیشرو هوش مصنوعی امروز قرار داده شدهاند، لازم است.
این مسائل را مطرح میکند. o3 در واقع برای چه موضوعاتی طراحی شده است؟ و چقدر محاسبه بیشتری لازم است تا بتوان با o4، o5، یا هرچی که OpenAI برای مدلهای استدلالی بعدی خود نامگذاری میکند دستاوردهای بیشتری در اطراف استنتاج بدست آورد؟
به نظر نمیرسد که o3، یا جانشینان آن، روزانه «راننده اصلی» کسی باشند، همانند GPT-4o یا جستوجوی گوگل که ممکن است. این مدلها فقط برای پاسخ به سوالات کوچک در طول روز شما محاسبات زیادی نیاز دارند مانند، «چگونه Cleveland Browns هنوز میتوانند به پلیآف ۲۰۲۴ راه پیدا کنند؟»
در عوض، به نظر میرسد که مدلهای هوش مصنوعی با محاسبات مقیاسیافته در زمان آزمون ممکن است فقط برای درخواستهای کلی تر مناسب باشند مانند، «چگونه Cleveland Browns میتواند در سال ۲۰۲۷ به یک فرانشیز سوپربول تبدیل شود؟» حتی در آن زمان، شاید قیمتهای بالا تنها زمانی ارزش داشته باشد که شما مدیر عمومی Cleveland Browns هستید و از این ابزارها برای گرفتن تصمیمهای بزرگ استفاده میکنید.
مؤسسههایی با کیفهای پول عمیق ممکن است تنها کسانی باشند که در ابتدا میتوانند o3 را تحمل کنند، همانطوری که اتان مولیک، استاد وارتون، در یک توییت اشاره میکند.
ما قبلاً شاهد بودیم که OpenAI یک سطح ۲۰۰ دلاری برای استفاده از یک نسخه با محاسبات بالا از o1 منتشر کرده است، اما استارتاپ به صورت گزارشی بررسی نموده که برنامههای اشتراکی با هزینههای تا سقف ۲۰۰۰ دلار ایجاد کند. وقتی ببینید چقدر محاسبه o3 استفاده میکند، میتوانید بفهمید چرا OpenAI این را در نظر خواهد گرفت.
اما استفاده از o3 برای کارهای با تاثیر بالا معایبی دارد. همانطور که چولت اشاره میکند، o3 AGI نیست و هنوز در برخی از کارهای بسیار ساده که یک انسان به راحتی انجام خواهد داد، شکست میخورد.
این لزوماً تعجب آور نیست، زیرا مدلهای زبان بزرگ هنوز مشکل بزرگی با توهم دارند، که o3 و محاسبه زمان آزمون به نظر نمیرسد که حل کرده باشند. به همین دلیل است که ChatGPT و Gemini زیر هر جوابی که تولید می کنند، اظهاراتی دال بر اعتماد نکردن به پاسخهایشان به صورت حیاتی دارند. احتمالاً AGI، در صورتی که بهدست آید، به چنین اظهاراتی نیاز نخواهد داشت.
یک راه برای بازکردن دستاوردهای بیشتری در مقیاسگذاری در زمان آزمون میتواند بهتر شدن چیپهای استنتاج هوش مصنوعی باشد. کمبودی از استارتاپهایی که درست به همین موضوع میپردازند، مثل Groq یا Cerebras، وجود ندارد، ضمن اینکه سایر استارتاپها در حال طراحی چیپهای هوش مصنوعی با هزینه کمتری هستند، مثل MatX. شریک عمومی آندرسن هوروویتز، آنجنی میدها قبلاً به TechCrunch گفته بود که انتظار دارد این استارتاپها نقش بزرگتری در آینده نزدیک مقیاسگذاری در زمان آزمون ایفا کنند.
درحالی که o3 بهبود قابل توجهی در عملکرد مدلهای هوش مصنوعی ایجاد کرده است، چندین سوال جدید در مورد استفاده و هزینهها را مطرح کرده است. با این حال، عملکرد o3 به ادعای اینکه محاسبه زمان آزمون بهترین راه بعدی صنعت فناوری برای مقیاسگذاری مدلهای هوش مصنوعی است، اعتبار میبخشد.