دیپمایند گوگل با معماری جدید PEER عملکرد مدلهای هوش مصنوعی را بهبود میبخشد
گفتنی است که چندین مدل هوش مصنوعی محبوب ازجمله Mistral ،Grok و GPT-4 از تکنیک MoE بهره میبرند.
معماری جدید PEER دیپمایند گوگل
براساس گزارش VentureBeat ، معماری جدید محققان دیپمایند این باور قدیمی را زیر سؤال میبرد که مدلهای MoE با تعداد محدودی از «متخصصان» به اوج بازدهی میرسند.
تکنیک «ترکیب متخصصان» (MoE) به یک رویکرد محبوب برای افزایش مقیاس مدلهای زبانی بزرگ بدون افزایش هزینههای محاسباتی تبدیل شده است. اکنون دیپمایند گوگل با معرفی معماری PEER قصد دارد محدودیتهای این تکنیک را برطرف کند تا عملکرد و هزینههای توسعه هوش مصنوعی را بهبود دهد.
در تکنیک MoE بهجای استفاده از کل ظرفیت یک مدل برای هر ورودی، دادهها به ماژولهای کوچکی موسوم به «متخصص» هدایت میشوند. بااینحال، تکنیکهای فعلی MoE دارای محدودیتهایی هستند که آنها را منحصر به تعداد نسبتاً کمی از این متخصصان میکند. اکنون دیپمایند گوگل در مقالهای جدید، معماری PEER را معرفی کرده که میتواند مدلهای MOE را به میلیونها متخصص تقسیم کند و عملکرد محاسباتی مدلهای زبانی بزرگ را بهبود بخشد.
گفتنی است که چندین مدل هوش مصنوعی محبوب ازجمله Mistral ،Grok و GPT-4 از تکنیک MoE بهره میبرند.
معماری جدید PEER دیپمایند گوگل
براساس گزارش VentureBeat ، معماری جدید محققان دیپمایند این باور قدیمی را زیر سؤال میبرد که مدلهای MoE با تعداد محدودی از «متخصصان» به اوج بازدهی میرسند. PEER نشان میدهد که با استفاده از مکانیسمهای بازیابی و مسیریابی مناسب، میتوان MoE را به میلیونها «متخصص» تقسیم کرد. این رویکرد میتواند به کاهش بیشتر هزینهها و پیچیدگی آموزش و ارائه مدلهای زبانی بسیار بزرگ کمک کند.
در چند سال گذشته مشخص شد که افزایش مقیاس مدلهای زبانی با افزایش تعداد پارامترهای آنها منجر به بهبود عملکرد و قابلیتهای جدید میشود. همچنین محققان دریافتهاند که افزایش «دانهبندی» (Granularity) یک مدل MOE، که به تعداد متخصصان آن اشاره دارد، میتواند منجر به افزایش عملکرد شود، بهویژه زمانی که با افزایش اندازه مدل و دادههای آموزشی همراه باشد.
MoE با دانهبندی بالا همچنین میتواند مدلها را قادر سازد تا دانش جدید را بهطرزی مؤثرتر بیاموزند. بااینحال یکی از محدودیتهای فعلی، این است که این مدلها معمولاً مسیریابهای ثابتی دارند که برای تعداد خاصی از متخصصان طراحی شدهاند و با اضافهشدن متخصصان جدید نیاز به تنظیم مجدد دارند.
اکنون معماری PEER درواقع به مسائل و محدودیتهای مقیاسبندی MoE میپردازد. PEER مسیریابهای ثابت را با یک شاخص خاص جایگزین میکند تا دادههای ورودی را بهطور مؤثر به میلیونها متخصص هدایت کند. برای هر ورودی، PEER ابتدا از محاسبات اولیه سریع برای ایجاد فهرست کوتاهی از گزینههای مختلف برای انتخاب و فعالکردن متخصصان مناسب استفاده میکند. این مکانیسم MoE را قادر میسازد تا تعداد بسیار زیادی از متخصصان را بدون کاهش سرعت مدیریت کند.
گوگل احتمالاً از معماری PEER در مدلهای جمینای 1.5 استفاده خواهد کرد.