تکنولوژی

محققان دیپ‌مایند گوگل روشی جدید برای آموزش مدل‌های هوش مصنوعی پیشنهاد می‌دهند

این فرایند که پیش‌آموزش (Pre-training) شناخته می‌شود، بسیاری از دستاوردهای اخیر هوش مصنوعی ازجمله ChatGPT را ایجاد کرد اما اخیراً ارتقاهای هوش مصنوعی دیگر شتاب قبل را ندارد و کارشناسان می‌گویند دوره پیش‌آموزش به پایان نزدیک شده است.

باتوجه به اینکه شرکت‌های بزرگ فناوری تریلیون‌ها دلار در این فناوری سرمایه‌گذاری کرده‌اند، کاهش پیشرفت مدل‌های هوش مصنوعی می‌تواند هولناک باشد اما محققان می‌گویند راه جدیدی برای آموزش و توسعه مدل‌های هوش مصنوعی وجود دارد.

روش جدید محققان دیپ‌مایند برای آموزش هوش مصنوعی

مدل‌های جدید مانند o1 و o3 از شرکت OpenAI از روش جدیدی برای پاسخ‌ به درخواست‌های کاربران استفاده می‌کنند که به آن پردازش زمان آموزش یا استدلال (test-time or inference-time compute) می‌گویند.

در این روش، هوش مصنوعی درخواست‌های شما را به بخش‌های کوچک‌تری تقسیم و هرکدام را به پرامپت جدیدی تبدیل می‌کند.

بسیاری از کارشناسان حوزه هوش مصنوعی مانند «ایلیا ساتسکیور»، از بنیان‌گذاران OpenAI، می‌گویند فرایند آموزش هوش مصنوعی با روش‌های قدیمی به اوج خود رسیده و دیگر نمی‌توان مدل‌های قدرتمندتری با آنها توسعه داد. اکنون محققان دیپ‌مایند گوگل می‌گویند می‌توان از خروجی‌های مدل‌های «استدلال‌گر» مانند o1 به‌عنوان منابع داده آموزشی جدید هوش مصنوعی استفاده کرد.

براساس گزارش بیزنس اینسایدر ، تمام داده‌های مفید موجود در اینترنت تاکنون برای آموزش مدل‌های هوش مصنوعی استفاده شده است. این فرایند که پیش‌آموزش (Pre-training) شناخته می‌شود، بسیاری از دستاوردهای اخیر هوش مصنوعی ازجمله ChatGPT را ایجاد کرد اما اخیراً ارتقاهای هوش مصنوعی دیگر شتاب قبل را ندارد و کارشناسان می‌گویند دوره پیش‌آموزش به پایان نزدیک شده است.

باتوجه به اینکه شرکت‌های بزرگ فناوری تریلیون‌ها دلار در این فناوری سرمایه‌گذاری کرده‌اند، کاهش پیشرفت مدل‌های هوش مصنوعی می‌تواند هولناک باشد اما محققان می‌گویند راه جدیدی برای آموزش و توسعه مدل‌های هوش مصنوعی وجود دارد.

روش جدید محققان دیپ‌مایند برای آموزش هوش مصنوعی

مدل‌های جدید مانند o1 و o3 از شرکت OpenAI از روش جدیدی برای پاسخ‌ به درخواست‌های کاربران استفاده می‌کنند که به آن پردازش زمان آموزش یا استدلال (test-time or inference-time compute) می‌گویند.

در این روش، هوش مصنوعی درخواست‌های شما را به بخش‌های کوچک‌تری تقسیم و هرکدام را به پرامپت جدیدی تبدیل می‌کند. هر مرحله نیاز به اجرای درخواست جدیدی دارد که مرحله استنتاج در هوش مصنوعی شناخته می‌شود. این امر زنجیره‌ای از استدلال‌ها را ایجاد می‌کند که در آن هر بخش از مسئله حل می‌شود. مدل تا زمانی که هر قسمت را حل نکند و بتواند درنهایت پاسخ نهایی بهتری ارائه بدهد، به مرحله بعدی نمی‌رود.

طبق بنچمارک‌های منتشرشده مدل‌های جدید اغلب، به‌ویژه درمورد سؤالات ریاضی، خروجی‌های بهتری نسبت به مدل‌های قبلی تولید می‌کنند. محققان می‌گویند این خروجی‌های باکیفیت می‌توانند همان داده‌های آموزشی جدید باشند؛ به‌عبارتی این اطلاعات جدید و عظیم را می‌توان به فرایند آموزش مدل‌های هوش مصنوعی دیگر تزریق کرد تا حلقه خودبهبودی تکراری ایجاد کنیم.

برای مثال اگر خروجی‌های مدل o1 بهتر از GPT-4 باشد، می‌توان از این خروجی‌های جدید برای آموزش مدل‌های هوش مصنوعی آینده استفاده کرد یا فرض کنید o1 امتیاز 90 درصد را در یک بنچمارک هوش مصنوعی خاص دریافت می‌کند، می‌توانید این پاسخ‌ها را جمع‌ کنید و به GPT-4 بدهید تا آن مدل نیز به امتیاز 90 درصد برسد.

البته به نظر می‌رسد اکنون نیز برخی شرکت‌ها دارند از این روش برای توسعه مدل‌های خود بهره می‌برند. محققان احتمال می‌دهند این داده‌های مصنوعی بهتر از آنچه در اینترنت وجود دارد، باشند.

توسط
دیجیاتو
منبع
دیجیاتو
نمایش بیشتر

اخبار مرتبط

بازگشت به بالا