تکنولوژی

دیپ‌مایند گوگل با معماری جدید PEER عملکرد مدل‌های هوش مصنوعی را بهبود می‌بخشد

اکنون دیپ‌مایند گوگل در مقاله‌ای جدید، معماری PEER را معرفی کرده که می‌تواند مدل‌های MOE را به میلیون‌ها متخصص تقسیم کند و عملکرد محاسباتی مدل‌های زبانی بزرگ را بهبود بخشد.

گفتنی است که چندین مدل هوش مصنوعی محبوب ازجمله Mistral ،Grok و GPT-4 از تکنیک MoE بهره می‌برند.

معماری جدید PEER دیپ‌مایند گوگل

براساس گزارش VentureBeat ، معماری جدید محققان دیپ‌مایند این باور قدیمی را زیر سؤال می‌برد که مدل‌های MoE با تعداد محدودی از «متخصصان» به اوج بازدهی می‌رسند.

تکنیک «ترکیب متخصصان» (MoE) به یک رویکرد محبوب برای افزایش مقیاس مدل‌های زبانی بزرگ بدون افزایش هزینه‌های محاسباتی تبدیل شده است. اکنون دیپ‌مایند گوگل با معرفی معماری PEER قصد دارد محدودیت‌های این تکنیک را برطرف کند تا عملکرد و هزینه‌های توسعه هوش مصنوعی را بهبود دهد.

در تکنیک MoE به‌جای استفاده از کل ظرفیت یک مدل برای هر ورودی، داده‌ها به ماژول‌های کوچکی موسوم به «متخصص» هدایت می‌شوند. بااین‌حال، تکنیک‌های فعلی MoE دارای محدودیت‌هایی هستند که آن‌ها را منحصر به تعداد نسبتاً کمی از این متخصصان می‌کند. اکنون دیپ‌مایند گوگل در مقاله‌ای جدید، معماری PEER را معرفی کرده که می‌تواند مدل‌های MOE را به میلیون‌ها متخصص تقسیم کند و عملکرد محاسباتی مدل‌های زبانی بزرگ را بهبود بخشد.

گفتنی است که چندین مدل هوش مصنوعی محبوب ازجمله Mistral ،Grok و GPT-4 از تکنیک MoE بهره می‌برند.

معماری جدید PEER دیپ‌مایند گوگل

براساس گزارش VentureBeat ، معماری جدید محققان دیپ‌مایند این باور قدیمی را زیر سؤال می‌برد که مدل‌های MoE با تعداد محدودی از «متخصصان» به اوج بازدهی می‌رسند. PEER نشان می‌دهد که با استفاده از مکانیسم‌های بازیابی و مسیریابی مناسب، می‌توان MoE را به میلیون‌ها «متخصص» تقسیم کرد. این رویکرد می‌تواند به کاهش بیشتر هزینه‌ها و پیچیدگی آموزش و ارائه مدل‌های زبانی بسیار بزرگ کمک کند.

معماری PEER دیپ‌مایند

در چند سال گذشته مشخص شد که افزایش مقیاس مدل‌های زبانی با افزایش تعداد پارامترهای آن‌ها منجر به بهبود عملکرد و قابلیت‌های جدید می‌شود. همچنین محققان دریافته‌اند که افزایش «دانه‌بندی» (Granularity) یک مدل MOE، که به تعداد متخصصان آن اشاره دارد، می‌تواند منجر به افزایش عملکرد شود، به‌ویژه زمانی که با افزایش اندازه مدل و داده‌های آموزشی همراه باشد.

MoE با دانه‌بندی بالا همچنین می‌تواند مدل‌ها را قادر سازد تا دانش جدید را به‌طرزی مؤثرتر بیاموزند. بااین‌حال یکی از محدودیت‌های فعلی، این است که این مدل‌ها معمولاً مسیریاب‌های ثابتی دارند که برای تعداد خاصی از متخصصان طراحی شده‌اند و با اضافه‌شدن متخصصان جدید نیاز به تنظیم مجدد دارند.

اکنون معماری PEER درواقع به مسائل و محدودیت‌های مقیاس‌بندی MoE می‌پردازد. PEER مسیریاب‌های ثابت را با یک شاخص خاص جایگزین می‌کند تا داده‌های ورودی را به‌طور مؤثر به میلیون‌ها متخصص هدایت کند. برای هر ورودی، PEER ابتدا از محاسبات اولیه سریع برای ایجاد فهرست کوتاهی از گزینه‌های مختلف برای انتخاب و فعال‌کردن متخصصان مناسب استفاده می‌کند. این مکانیسم MoE را قادر می‌سازد تا تعداد بسیار زیادی از متخصصان را بدون کاهش سرعت مدیریت کند.

گوگل احتمالاً از معماری PEER در مدل‌های جمینای 1.5 استفاده خواهد کرد.

توسط
دیجیاتو
منبع
دیجیاتو
نمایش بیشتر

اخبار مرتبط

بازگشت به بالا