روباتها با روش جدید یادگیری AI بر مهارتهای Jenga و مونتاژ مادربرد مسلط میشوند

محققان دانشگاه کالیفرنیا، برکلی، یک روش آموزشی جدیدی برای روباتها توسعه دادهاند که به آنها کمک میکند مهارتهایی مانند «چرخیدن Jenga» یا ساخت سریع و دقیق مبلمان را بیاموزند. ترکیبی از هوش مصنوعی (AI)، یادگیری تقویتی و راهنمایی انسانی، این تکنیک جدید به روباتها امکان میدهد در عرض چند ساعت از مبتدی به خبره تبدیل شوند.
تیم تحقیقاتی در آزمایشگاه روباتیک AI و یادگیری سرگئی لوین در این دانشگاه، تکنیک آموزشی جدیدی توسعه دادند که به روباتها کمک میکند اصول اولیه یک وظیفه را یاد بگیرند و سپس با تمرین در دنیای واقعی آن را بهبود بخشند. همانطور که انسانها از طریق آزمون و خطا یاد میگیرند، روش یادگیری تقویتی به روبات امکان میدهد از بازخورد حسگرها و دوربینها برای کشف مکانهایی که در آنها عملکرد خوبی دارد و نقاطی که در آنها شکست میخورد، استفاده کند.
نسخه جدید آموزش روبات همچنین شامل هدایت انسانی برای تصحیح بیشتر مجموعه مهارتهای روبات هنگام انجام یک وظیفه است. با استفاده از این روش، مربی انسانی میتواند با استفاده از یک موش ویژگیهای حرکتی روبات را اصلاح کند اگر کاری را اشتباه انجام میدهد.
این ورودی در حافظه روبات ذخیره میشود تا مدل آن برای تکمیل یک وظیفه اصلاح شود. با استفاده از این داده و موفقیتها و شکستهایش، روش جدید یادگیری AI نشان داده شده است که سرعت یادگیری را به طرز چشمگیری افزایش میدهد و دقت یک روبات را در انجام یک وظیفه افزایش میدهد.
از مبتدی به خبره در ساعات
جینلان لوو، پست دکتری که بخشی از تیم تحقیقاتی است، گفت که روبات به تدریج از تجارب میآموزد و نیاز به دخالت انسانی بیشتری ندارد. “لازم بود روبات را برای مثلاً 30 درصد اول مراقبت کنم و سپس به تدریج میتوانستم کمتر به آن توجه کنم,” او در یک بیانیه مطبوعاتی منتشر شده توسط UC Berkeley افزود.
برای آزمایش روش جدید یادگیری خود، تیم سیستم روباتیک خود را در وظایف متنوعی آزمایش کردند. اولین وظیفه «چرخیدن Jenga» بود که شامل استفاده از یک سیم کوتاه برای «ضربه زدن» به بلوکهای جینگای مجزا از یک برج تشکیل شده بود.
سایر وظایف شامل ضرب کردن یک تخممرغ در ماهیتابه، انتقال یک شیء از یک دست به دست دیگر، مونتاژ مادربرد از ابتدا، مونتاژ داشبورد خودرو و جایگزینی کمربند تایمینگ موتور بود.
این وظایف به دلیل تنوع زیادی که در مهارت و عملکرد دارند، انتخاب شدند؛ و تیم معتقد بود که این وظایف عمدهای که از روباتها انتظار میرود در دنیای واقعی انجام دهند را پوشش میدهند.
از میان وظایفی که توسط روبات انجام شدند، جایگزینی کمربند تایمینگ به ویژه دشوار بود. به دلیل ماهیت وظیفه و مواد مورد استفاده (به ویژه زنجیره لغزشی)، روبات باید به بسیاری از متغیرها واکنش نشان دهد و آنها را پیشبینی کند، که در هر بار تلاش متفاوت بودند.
یادگیری تقویتی اثبات میکند که حیاتی است
وظیفه چرخیدن جینگا یک تلاش جالب دیگر برای تیم بود زیرا فیزیک درگیر بسیار دشوار برای مدلسازی است. برای همه به جز بازیکنان ماهرترین، این وظیفه یک چالش واقعی برای روبات بود.
در این مورد، آموزش دنیای واقعی بسیار حیاتی بود تا به روبات اجازه دهد از تجربه یاد بگیرد تا صرفاً آموزش شبیهسازی. با این حال، بعد از اعمال روش جدید یادگیری، روبات توانست وظیفه را به طور کامل با نرخ موفقیت 100% انجام دهد.
تیم همچنین وظایف روبات را با ایجاد خرابیها در طول وظایف دشوارتر کرد. این شامل جابجایی مادربرد هنگام مونتاژ بود تا روبات را مجبور به واکنش سریع در یک محیط پویا و غیرقابل پیشبینی کند.
علیرغم همه اینها، روبات توانست تمام وظایف را با دقت 100% و سریعتر از روشهای کلاسیک «رفتار من را تقلید کن» انجام دهد. به جلو، تیم اکنون امیدوار است که روباتها را با دانش پایهای از وظایف آماده کنند تا زمان آموزش را کاهش دهند و آنها را آزاد کنند تا بر روی تسلط بر وظایف پیچیدهتر و جدید تمرکز کنند.
آنها همچنین برنامه دارند که تحقیقات خود را به صورت متن باز نمایند تا به دانشمندان دیگر کمک کنند بهبود و توسعه پروژههایشان را ادامه دهند. “یکی از اهداف اصلی این پروژه این است که فناوری را مانند آیفون قابل دسترسی و کاربرپسند کنیم. من معتقدم هرچه افراد بیشتری بتوانند از آن استفاده کنند، تأثیر بیشتری خواهیم داشت,” لوو گفت.
گزارش فنی پروژه در یک مجله UC Berkeley منتشر شد .