تکنولوژی
روش آموزشی مقرونبهصرفه MIT مهارتهای یادگیری ربات را ۲۰٪ افزایش میدهد
محققان MIT روشی چندمنظوره برای آموزش رباتها ایجاد کردهاند که دادههای متنوعی را ادغام میکند تا به رباتها در یادگیری مهارتهای جدید کمک کند. این روش دادهها را از حوزههای مختلف به یک «زبان» مشترک برای مدلهای AI مولدی تبدیل میکند. این روش در مقایسه با روشهای سنتی، سریعتر و مقرونبهصرفهتر است و بیش از ۲۰ درصد عملکرد بهتری در آزمایشات شبیهسازی و واقعی نشان داده است. سیستم HPT از دادههای چندوجهی بهرهگیری میکند و میتواند عملکرد رباتها را بهبود بدهد.
محققان MIT روشی چندمنظوره برای آموزش ایجاد کردهاند که دادههای متنوعی را ادغام کرده تا به رباتها در یادگیری مهارتهای جدید کمک کنند. این روش با الهام از مدلهای بزرگ زبانی، دادهها را از حوزههای مختلف مثل شبیهسازیها و رباتهای واقعی به یک «زبان» مشترک برای مدلهای AI مولدی تبدیل میکند. این روش حجم وسیعی از دادهها را از چندین مدالیتی مانند حسگرهای دید و رمزگذارهای موقعیت دست رباتیک در بر میگیرد.بر اساس اعلام تیم، با حذف نیاز به آموزش خاص برای هر وظیفه، این روش سریعتر و مقرونبهصرفهتر از روشهای سنتی است و در آزمایشات شبیهسازی و واقعی بیش از ۲۰ درصد بهتر عمل میکند.«نمایشگر یادگیرانه میتواند عملکرد را در شبیهسازی و دنیای واقعی بهبود بخشد و همبستگیهایی با عملکرد قبل از آموزش نشان دهد. کد برای تحقیقات آینده منبع باز است،» محققان در مطالعه بیان کردند.سیاست رباتیک از دادههای حسگرها، مانند تصاویر دوربین یا اندازهگیریهایی که سرعت و موقعیت دست رباتیک را دنبال میکنند، برای راهنمایی ربات در مورد نحوه و مکان حرکت استفاده میکند.یادگیری تقلیدی اساس روشهای سنتی است، که در آن افراد به رباتها نحوه عملکرد را نشان میدهند یا با آنها راهاندازی از را دور میکنند، و میزان کمی از دادههای خاص وظیفه تولید میشود. این محدودیت قابلیت سازگاری با وظایف یا محیطهای متغیر را محدود میکند.محققان معماری جدیدی به نام «ترانسفورمرهای پیشآموزشدیده ناهمگن» (HPT) ایجاد کردند که از مدلهای بزرگ زبانی الهام گرفته شده است. پیشآموزش بر روی دادههای متنوع به مدلهای زبانی امکان میدهد تا با وظایف مختلف سازگار شوند.از سوی دیگر، دادههای رباتیک بسیار متنوعتر است و چندین مدالیتی مانند نقشههای عمق، دستورات زبانی و تصاویر دوربین را شامل میشود. آموزش بیشتر با این واقعیت پیچیده میشود که هر ربات دارای ساختار مکانیکی متفاوت با دستها، گریپرها و حسگرهایی متفاوت است.بنابراین، HPT با تبدیل دادههای چندوجهی از طریق ترانسفورمر، یک مدل یادگیری ماشین که در معماری آن مرکزی است، به این مسئله پرداخته است.سیستم ورودهای دیداری و پریکوشن را به واحدهای سازگار به نام توکنها تبدیل میکند. هر نوع ورودی با همان تعداد توکنها نمایش داده میشود و به ترانسفورمر اجازه میدهد تا تمام ورودیها را به فضای یکپارچه نقشهبرداری کند. با پردازش بیشتر دادهها توسط ترانسفورمر، مدل بزرگی پیشآموزشدیده میشود که عملکرد را بهبود میبخشد.کاربران فقط نیاز به ارائه دادههای حداقل درباره طراحی ربات خود و وظیفه مورد نظر دارند. HPT از پیشآموزش خود برای انتقال دانش بهطور مؤثر استفاده میکند و به ربات امکان میدهد تا به سرعت سازگار شود.محققان تأکید کردند که ایجاد HPT نیاز به غلبه بر چالشهای مهمی داشت، به ویژه در ساخت یک مجموعه داده بزرگ برای پیشآموزش.تیم این مجموعه داده جامع را با ترکیب اطلاعات از ۵۲ منبع ساخت. این مجموعه شامل بیش از ۲۰۰،۰۰۰ مسیر ربات در دستهبندیهای مختلف، از جمله ویدئوهای نمایش انسانی و شبیهسازیها است.تبدیل مؤثر سیگنالهای پریکوشن نامنظم از چندین حسگر به دادههای سازماندهیشده که مدل ترانسفورمر میتواند تجزیه و تحلیل کند، نیز وظیفه دیگری حیاتی بود.این طراحی دادههای پریکوشن و ورودیهای دیداری را به طور مساوی مدیریت میکند. با حفظ تعداد توکنهای سیستم به صورت ثابت، این تعادل به ترانسفورمر امکان میدهد تا بهطور کامل از دادههای حسی برای حرکات پیچیده و دقیق استفاده کند.آزمونها نشان دادند که HPT عملکرد رباتیک را هم در وظایف شبیهسازی و هم در وظایف واقعی بیش از ۲۰ درصد بهبود میبخشد در مقایسه با شروع از ابتدا در هر بار. به طور خاص، HPT عملکرد بهبود یافته خود را حتی زمانی که با وظایفی بسیار متفاوت از دادههای پیشآموزش شده ارائه شد، حفظ کرد.در حالی که امیدوارکننده است، HPT دارای مناطقی برای بهبود است، از جمله تدوین مجموعه داده و اهداف پیشآموزش. مخلوط فعلی متعادل دادهها از تقسیمات ساده بدنبندی استفاده میکند، و توجه محدود به فیلتر کردن دادهها برای حفظ کیفیت دارد.تدریس نظارتی روش اصلی پیشآموزش است و اندازه دادهها و آموزشها تنها به اندازههای متوسط و حتی محاسبههای متوسط برای دستیابی به همگرایی کامل رسیدهاند.به گفته محققان، اگرچه معماری مدل بهگونهای طراحی شده است که مستقل از تنظیمات ربات باشد، پیشآموزش ناهمگن میتواند کند باشد. آزمونها به وظایف دستکاری با افق کوتاه و با تنظیمات ثابت محدود شده، و مزایای مدل با ظرفیت بالاتر کاهش یافته است.جزئیات تحقیق تیم در مجله arXiv منتشر شده است.