تکنولوژی

معرفی مدل استدلالی o3 توسط OpenAI برای حل چالش‌های پیچیده و رقابت با گوگل

شرکت OpenAI، تولیدکننده ChatGPT، مدل استدلالی o3 و o3 mini را به‌منظور حل چالش‌های پیچیده معرفی کرده است. این مدل‌ها برای اجرای وظایف پیچیده و افزایش قابلیت‌های استدلال طراحی شده‌اند. مدل o3 با دقت بالا در مسابقات ریاضی AIME 2024 و استدلال علمی GPQA Diamond عملکرد برتر نشان داده است. همچنین، این شرکت از روش جدید ایمنی به نام هم‌ترازی تدبیری برای مدیریت درخواست‌های غیر ایمن استفاده می‌کند. OpenAI از محققان خارجی دعوت کرده است تا مدل‌های o3 را آزمایش کنند. همزمان، گوگل نیز با مدل GemII 2.0 Flash Thinking خود به رقابت پرداخته است.

شرکت OpenAI، سازنده ChatGPT، مدل استدلالی o3 و o3 mini را برای حل چالش‌های پیچیده معرفی کرده است.

بر اساس اعلام مدیرعامل سم آلتمن، OpenAI قصد دارد تا پایان ژانویه مدل o3 mini و پس از آن مدل کامل o3 را با هدف بهبود عملکرد برای جذب سرمایه‌گذاری و کاربران جدید راه‌اندازی کند.

آلتمن در جریان پخش زنده‌ای در روز جمعه توضیح داد که این آغاز مرحله بعدی در حوزه AI است، جایی که "این مدل‌ها می‌توانند وظایف پیچیده‌تری را که نیاز به استدلال قابل‌توجهی دارند، انجام دهند."

گام بعدی OpenAI در حل چالش‌های پیچیده

اوایل سال جاری، OpenAI مدل‌های o1 خود را معرفی کرد که به‌منظور اختصاص زمان بیشتری برای پردازش درخواست‌های پیچیده طراحی شده بودند. اما، مدل جدید ۲۰ درصد مؤثرتر از o1 بوده است. اوفیر پرس، یک محقق دکترای پسادکترا در دانشگاه پرینستون که به توسعه SWE-Bench کمک کرده بود، به پیشرفت قابل توجهی اشاره کرد و از افزایش چشمگیر و عدم اطمینان از چگونگی دستیابی به آن ابراز شگفتی کرد.

علاوه بر این، این مدل‌ها در حل مشکلات چالش‌برانگیز در زمینه‌هایی مانند علم، برنامه‌نویسی و ریاضی برتری دارند. این شرکت اکنون اعلام کرده است که مدل‌های o3 و o3 mini آینده خود که در حال حاضر تحت آزمون‌های ایمنی داخلی قرار دارند، از قابلیت های مدل‌های o1 فراتر خواهند رفت.

مدل o3 در مسابقه ریاضی AIME 2024 با دقت ۹۶٫۷٪ تنها یک سوال را از دست داد و در GPQA Diamond برای استدلال علمی به ۸۷٫۷٪ رسید، که بهتر از عملکرد معمولی محققان دکتری با ۷۰٪ است.

یکی از دستاوردهای برجسته برای o3 حل ۲۵٫۲٪ از مسائل روی شاخص Frontier Math در EpochAI بود، که جهشی عظیم از دقت ۲٪ مدل قبلی است. این مدل همچنین روی شاخص ARC-AGI با نمره ۸۷٫۵٪ عملکرد انسانی را در استدلال مفهومی پشت سر گذاشت.

یک پست در X اشاره کرده است که "OpenAI o3 در Codeforces رتبه ۲۷۲۷ را به دست آورده است، معادل با رتبه ۱۷۵ بهترین برنامه‌نویس رقابتی انسانی در جهان"، که دستاوردی فوق بشری برای AI و فناوری به شمار می‌آید.

علاوه بر این، o3-mini نسخه‌ای ساده‌شده از o3 است که برای بهره‌وری در وظایف برنامه‌نویسی طراحی شده است. این مدل عملکرد قوی با هزینه محاسباتی کمتر و تنظیمات استدلال قابل تنظیم — پایین، متوسط و بالا — برای انعطاف پذیری در وظایف مختلف ارائه می‌دهد.

این شرکت همچنین یک روش جدید ایمنی به نام ترازبندی تدبیری معرفی کرده است که از مهارت‌های استدلال مدل‌ها برای شناسایی و مدیریت بهتر درخواست‌های غیر ایمن استفاده می‌کند. این پیشرفت عمده‌ای در ایمنی هوش مصنوعی به شمار می‌آید و دقت در رد درخواست‌های مضر را بهبود می‌بخشد همچنین از انکار اضافی درخواست‌های معتبر جلوگیری می‌کند.

دعوت محققان برای آزمایش مدل‌های o3

شرکت OpenAI محققان خارجی را دعوت کرده است تا برای دسترسی اولیه به مدل‌های o3 درخواست دهند و فرآیند درخواست تا ۱۰ ژانویه ادامه دارد، خبرگزاری رویترز گزارش داد. این شرکت با راه‌اندازی ChatGPT در نوامبر ۲۰۲۲ رقابتی در زمینه AI به راانداخت و موفقیت روبه‌رشد آن به‌همراه معرفی محصولات جدید به دریافت بودجه ۶٫۶ میلیارد دلاری در اکتبر گذشته کمک کرد.

در همین حال، گوگل نیز تحقیقاتی مشابه را دنبال می‌کند. نوآم شازیر، محقق گوگل، در X فاش کرد که این شرکت مدل استدلالی خود را به نام Gemini 2.0 Flash Thinking توسعه داده است.

همانطور که WIRED می‌نویسد ، رقابت بین OpenAI و گوگل همچنان در حال رشد است زیرا هر دو شرکت در حال کار برای پیشرفت قابلیت‌های هوش مصنوعی خود هستند. OpenAI در تلاش است تا سرمایه‌گذاری بیشتری جذب کند و کسب و کار خود را گسترش دهد، در حالی که گوگل قصد دارد لبه خود در تحقیقات هوش مصنوعی را حفظ کند، با تمرکز هر دو شرکت بر بهبود هوش به جای فقط بزرگ سازی مدل‌های خود.

توسط
Interesting Engineering
منبع
Interesting Engineering
نمایش بیشتر

اخبار مرتبط

بازگشت به بالا