تکنولوژی

مدل‌های O3 پیشنهاد می‌دهند که مدل‌های هوش مصنوعی به روش‌های جدید مقیاس می‌شوند — اما هزینه‌ها نیز مقیاس می‌شود

مدل O3 از OpenAI نشان می‌دهد که باوجود بهبود در مدل‌های هوش مصنوعی از طریق روش‌های جدید مقیاس‌گذاری مانند مقیاس‌گذاری در زمان آزمون، هزینه‌ها نیز به طور چشمگیری افزایش یافته‌اند. این مدل با عملکرد برتر خود در آزمون‌های مختلف نشان‌دهنده تغییرات عمده در پیشرفت هوش مصنوعی است. با این حال، هزینه‌های بالای محاسباتی آن محدودیت‌هایی برای استفاده وسیع دارد.

ماه گذشته، بنیان‌گذاران و سرمایه‌گذاران هوش مصنوعی به TechCrunch گفتند که ما اکنون در «دومین دوره قوانین مقیاس‌گذاری» هستیم و اشاره کردند که روش‌های موجود برای بهبود مدل‌های هوش مصنوعی در حال نشان‌دادن کاهش بازده هستند. یک روش جدید امیدوارکننده که پیشنهاد کردند می‌تواند دستاوردها را نگه دارد، «مقیاس‌گذاری در زمان آزمون» بود که به نظر می‌رسد پشت عملکرد مدل o3 OpenAI باشد — اما این نیز با معایب خاص خودش همراه است.

بسیاری از دنیای هوش مصنوعی اعلامیه مدل o3 OpenAI را به عنوان اثباتی دانستند که پیشرفت در مقیاس‌گذاری هوش مصنوعی «به دیوار نخورده است». مدل o3 در بنچمارک‌ها عملکرد خوبی دارد، که به‌طور قابل‌ملاحظه‌ای تمام مدل‌های دیگر را در آزمون توانایی عمومی به نام ARC-AGI شکست می‌دهد، و در یک آزمون ریاضی دشوار ۲۵٪ امتیاز کسب می‌کند که هیچ مدل دیگری بیش از ۲٪ کسب نکرده بود.

البته، ما در TechCrunch همه این‌ها را با کمی تردید پذیرفته‌ایم تا بتوانیم خودمان o3 را آزمون کنیم (تعداد بسیار کمی تا کنون آن را امتحان کرده‌اند). اما حتی پیش از انتشار o3، دنیای هوش مصنوعی قبلاً معتقد شده که چیزی بزرگ تغییر کرده است.

نوام براون، هم‌خالق مدل‌های سری o OpenAI در جمعه اعلام کرد که استارت‌آپ در حال اعلام دستاوردهای چشمگیر o3 تنها سه ماه پس از اعلام o1 است — یک بازه زمانی نسبتاً کوتاه برای چنین جهش در عملکرد.

«ما هر دلیلی داریم که باور کنیم این مسیر ادامه خواهد داشت»، براون در یک توییت گفت.

جک کلارک، هم‌بنیان‌گذار Anthropic، در یک پست وبلاگی در روز دوشنبه گفت که o3 شواهدی است که پیشرفت هوش مصنوعی در سال ۲۰۲۵ سریعتر از سال ۲۰۲۴ خواهد بود. (به خاطر داشته باشید که این به نفع Anthropic است — به ویژه توانایی آن در جمع‌آوری سرمایه — به این گفته که قوانین مقیاس‌گذاری هوش مصنوعی ادامه دارند، حتی اگر کلارک رقیب خود را تمجید کند.)

سال آینده، کلارک می‌گوید دنیای هوش مصنوعی روش‌های مقیاس‌گذاری در زمان آزمون و مقیاس‌گذاری پیش‌آموزشی سنتی را با هم ترکیب خواهد کرد تا حتی بازده بیشتری از مدل‌های هوش مصنوعی به‌دست آورد. شاید او پیشنهاد می‌کند که Anthropic و دیگر ارائه‌دهندگان مدل‌های هوش مصنوعی مدل‌های استدلال خود را در سال ۲۰۲۵ منتشر خواهند کرد، درست مانند گوگل که هفته گذشته این کار را انجام داد.

مقیاس‌گذاری در زمان آزمون به این معناست که OpenAI در طول مرحله استنتاج ChatGPT، یعنی زمانی بعد از فشردن کلید Enter بر روی یک درخواست، از محاسبات بیشتری استفاده می‌کند. دقیقاً مشخص نیست که چه چیزی پشت صحنه در حال رخ دادن است: OpenAI یا از چیپ‌های کامپیوتری بیشتری برای پاسخ به سؤال یک کاربر استفاده می‌کند، چیپ‌های استنتاج قوی‌تری را اجرا می‌کند و یا این چیپ‌ها را برای مدت‌های طولانی‌تری اجرا می‌کند – در بعضی موارد ۱۰ تا ۱۵ دقیقه – قبل از اینکه هوش مصنوعی پاسخی ارائه دهد. ما جزئیات کامل چگونگی ساخته شدن o3 را نمی‌دانیم، اما این آزمون‌ها نشانه اولیه‌ای هستند که شاید مقیاس‌گذاری در زمان آزمون بتواند عملکرد مدل‌های هوش مصنوعی را بهبود بخشد.

در حالی که o3 ممکن است برخی‌ها را به پیشرفت قوانین مقیاس‌گذاری هوش مصنوعی امیدوار کند، مدل جدید OpenAI همچنین از سطحی از محاسبات استفاده می‌کند که قبلاً دیده نشده بود و این به معنای قیمت بالاتر به ازای هر پاسخ است.

تنها وقف مهم اینجا ممکن است فهمیدن این باشد که یکی از دلایلی که O3 اینقدر بهتر است این است که اجرای آن در زمان استنتاج بیشتر هزینه دارد – توانایی استفاده از محاسبات در زمان آزمون به معنای این است که در برخی مشکلات شما می‌توانید محاسبات را به پاسخ بهتر تبدیل کنید،» کلارک در وبلاگ خود می‌نویسد. «این جالب است زیرا این باعث شده که هزینه‌های اجرای سامانه‌های هوش مصنوعی کمی کمتر قابل پیش‌بینی باشد – قبلاً، شما می‌توانستید هزینه ارائه یک مدل تولیدی را صرفاً با نگاه کردن به مدل و هزینه تولید یک خروجی معین محاسبه کنید.»

کلارک و دیگران به عملکرد o3 بر روی بنچمارک ARC-AGI – آزمونی دشوار که برای ارزیابی پیشرفت‌ها در AGI استفاده می‌شود – به عنوان شاخصی از پیشرفت آن اشاره کردند. قابل ذکر است که گذراندن این آزمون، طبق گفته‌ی خالقان آن، به معنی دستیابی مدل هوش مصنوعی به AGI نیست، بلکه یکی از روش‌های اندازه‌گیری پیشرفت به سمت هدف مجهول است. با این گفته، مدل o3 از تمام مدل‌های هوش مصنوعی قبلی که این آزمون را انجام داده بودند بسیار پیشی گرفت، و در یکی از تلاش‌های خود ۸۸٪ نمره آورد. مدل هوش مصنوعی بعدی OpenAI، o1، تنها ۳۲٪ نمره آورد.

اما محور x لگاریتمی در این نمودار ممکن است برای برخی هشداردهنده باشد. نسخه‌ای از o3 که امتیاز بالایی کسب کرده بود بیش از ۱۰۰۰ دلار محاسبات برای هر کار استفاده می‌کرد. مدل‌های o1 حدود ۵ دلار محاسبات برای هر کار استفاده کرده بودند و o1-mini تنها چند سنت.

خالق بنچمارک ARC-AGI، فرانسوا چولت، در یک وبلاگ می‌نویسد که OpenAI تقریباً ۱۷۰ برابر محاسبه بیشتری برای تولید آن امتیاز ۸۸٪ استفاده کرد، در مقایسه با نسخه با کارآمدی بالای o3 که تنها ۱۲٪ پایین‌تر نمره آورد. نسخه‌ای از o3 که امتیاز بالایی کسب کرده بود بیش از ۱۰۰۰۰ دلار منابع برای تکمیل آزمون مصرف کرد که آن را برای رقابت ARC Prize – رقابت شکست‌خورده‌ای برای مدل‌های هوش مصنوعی برای شکست دادن آزمون ARC – خیلی گران می‌کند.

با این حال، چولت می‌گوید که o3 هنوز یک پیشرفت برای مدل‌های هوش مصنوعی بود.

«o3 سیستمی است که قادر به تطبیق با کارهایی است که قبلاً هرگز با آن‌ها مواجه نشده بود، احتمالاً نزدیک به عملکرد در سطح انسانی در دامنه ARC-AGI،» چولت در این وبلاگ گفت. «البته، چنین کلیتی با هزینه سنگینی همراه است و هنوز کاملاً اقتصادی نیست: شما می‌توانید به یک انسان برای حل کارهای ARC-AGI تقریباً ۵ دلار برای هر کار پرداخت کنید (ما این کار را کردیم)، در حالی که تنها چند سنت در مصرف انرژی مصرف می‌کند.»

پیش از آنکه به قیمت‌گذاری دقیق همه این‌ها مشغول شویم زود است – ما قیمت‌ها برای مدل‌های هوش مصنوعی را در سال گذشته دیدیم که به شدت کاهش یافته‌اند و OpenAI هنوز اعلام نکرده که o3 چقدر هزینه خواهد داشت. با این حال، این قیمت‌ها نشان‌دهنده این است که چقدر محاسبه برای شکستن، حتی اندکی، محدودیت‌های عملکردی که توسط مدل‌های پیشرو هوش مصنوعی امروز قرار داده شده‌اند، لازم است.

این مسائل را مطرح می‌کند. o3 در واقع برای چه موضوعاتی طراحی شده است؟ و چقدر محاسبه بیشتری لازم است تا بتوان با o4، o5، یا هرچی که OpenAI برای مدل‌های استدلالی بعدی خود نام‌گذاری می‌کند دستاوردهای بیشتری در اطراف استنتاج بدست آورد؟

به نظر نمی‌رسد که o3، یا جانشینان آن، روزانه «راننده اصلی» کسی باشند، همانند GPT-4o یا جست‌وجوی گوگل که ممکن است. این مدل‌ها فقط برای پاسخ به سوالات کوچک در طول روز شما محاسبات زیادی نیاز دارند مانند، «چگونه Cleveland Browns هنوز می‌توانند به پلی‌آف ۲۰۲۴ راه پیدا کنند؟»

در عوض، به نظر می‌رسد که مدل‌های هوش مصنوعی با محاسبات مقیاس‌یافته در زمان آزمون ممکن است فقط برای درخواست‌های کلی تر مناسب باشند مانند، «چگونه Cleveland Browns می‌تواند در سال ۲۰۲۷ به یک فرانشیز سوپربول تبدیل شود؟» حتی در آن زمان، شاید قیمت‌های بالا تنها زمانی ارزش داشته باشد که شما مدیر عمومی Cleveland Browns هستید و از این ابزارها برای گرفتن تصمیم‌های بزرگ استفاده می‌کنید.

مؤسسه‌هایی با کیف‌های پول عمیق ممکن است تنها کسانی باشند که در ابتدا می‌توانند o3 را تحمل کنند، همانطوری که اتان مولیک، استاد وارتون، در یک توییت اشاره می‌کند.

ما قبلاً شاهد بودیم که OpenAI یک سطح ۲۰۰ دلاری برای استفاده از یک نسخه با محاسبات بالا از o1 منتشر کرده است، اما استارتاپ به صورت گزارشی بررسی نموده که برنامه‌های اشتراکی با هزینه‌های تا سقف ۲۰۰۰ دلار ایجاد کند. وقتی ببینید چقدر محاسبه o3 استفاده می‌کند، می‌توانید بفهمید چرا OpenAI این را در نظر خواهد گرفت.

اما استفاده از o3 برای کارهای با تاثیر بالا معایبی دارد. همانطور که چولت اشاره می‌کند، o3 AGI نیست و هنوز در برخی از کارهای بسیار ساده که یک انسان به راحتی انجام خواهد داد، شکست می‌خورد.

این لزوماً تعجب آور نیست، زیرا مدل‌های زبان بزرگ هنوز مشکل بزرگی با توهم دارند، که o3 و محاسبه زمان آزمون به نظر نمی‌رسد که حل کرده باشند. به همین دلیل است که ChatGPT و Gemini زیر هر جوابی که تولید می کنند، اظهاراتی دال بر اعتماد نکردن به پاسخ‌هایشان به صورت حیاتی دارند. احتمالاً AGI، در صورتی که به‌دست آید، به چنین اظهاراتی نیاز نخواهد داشت.

یک راه برای بازکردن دستاوردهای بیشتری در مقیاس‌گذاری در زمان آزمون می‌تواند بهتر شدن چیپ‌های استنتاج هوش مصنوعی باشد. کمبودی از استارتاپ‌هایی که درست به همین موضوع می‌پردازند، مثل Groq یا Cerebras، وجود ندارد، ضمن اینکه سایر استارتاپ‌ها در حال طراحی چیپ‌های هوش مصنوعی با هزینه کمتری هستند، مثل MatX. شریک عمومی آندرسن هوروویتز، آنجنی میدها قبلاً به TechCrunch گفته بود که انتظار دارد این استارتاپ‌ها نقش بزرگ‌تری در آینده نزدیک مقیاس‌گذاری در زمان آزمون ایفا کنند.

درحالی که o3 بهبود قابل توجهی در عملکرد مدل‌های هوش مصنوعی ایجاد کرده است، چندین سوال جدید در مورد استفاده و هزینه‌ها را مطرح کرده است. با این حال، عملکرد o3 به ادعای اینکه محاسبه زمان آزمون بهترین راه بعدی صنعت فناوری برای مقیاس‌گذاری مدل‌های هوش مصنوعی است، اعتبار می‌بخشد.

توسط
Tech Crunch
منبع
Tech Crunch
نمایش بیشتر

اخبار مرتبط

بازگشت به بالا