مهندسان در Disney Research توانستهاند رباتها را از طریق بهرهگیری از دادههای حرکتی بدون ساختار، به یادگیری رقص وادار کنند.
تیم از تکنیک دو مرحلهای برای کنترل شخصیت با استفاده از حرکت سینماتیک کامل بدن استفاده کرده است.
ابتدا، آنها یک اتوانکودر واریاسیونال را آموزش دادند تا با پردازش قطعات کوتاه حرکت از دادههای بدون ساختار، نمای نهفته ایجاد کند. سپس از این نمای نهفته برای آموزش سیاست شرطی استفاده کردند که ورودی سینماتیک را به خروجی آگاه از دینامیک پیوند میداد.
با جدا کردن این مراحل، تیم کیفیت کدهای نهفته را بهبود بخشید و از مشکلاتی مانند فروپاشی حالت جلوگیری کرد. آنها کارایی و پایداری این روش را در شبیهسازیها و روی یک ربات دوپا نشان دادند و موفق به آوردن حرکات دینامیک به زندگی شدند.
آموزش موثر حرکت
انیمیشن شخصیت مبتنی بر فیزیک از طریق یادگیری تقویتی تقلیدی در سالهای اخیر بهبود زیادی یافته است که امکان ردیابی دقیق بسیاری از مهارتها را فراهم میکند. با این حال، روشهای فعلی نمیتوانند این کار را با یک سیاست واحد انجام دهند که بتواند حرکات دینامیک خام متنوع را همزمان با کنترل کامل بدن مدیریت کند.
روشهای کنترل شخصیت که به یادگیری متکی هستند به طور چشمگیری پیشرفت کردهاند، به ویژه در سنتز حرکت سینماتیک و مبتنی بر فیزیک. روشهای سینماتیک از نمایش فشرده حرکت یا مدلهای مولد برای تولید حرکات روان و باورپذیر استفاده میکنند که گاهی فیزیک انجینها را نیز برای حذف اشکالات به کار میگیرند.
فنون مبتنی بر یادگیری تقویتی عمیق با استفاده از فیزیک عمدتا روی تقلید از انیمیشنهای مرجع متمرکز هستند، اما اغلب به تنظیمات پیچیدهای برای مهارتهای مختلف نیاز دارند. در این حالت، رویکردها از فضاهای نهفته برای آموزش سیاستها استفاده میکنند، تعادلی بین تنوع داده و دقت کنترل حفظ میکنند. با این حال، اینها اغلب به تنظیمات سفارشی یا بازآموزی گسترده نیاز دارند.
تکنیک جدید تیم Disney Research به طور موثری یک سیاست واحد را آموزش میدهد، کنترل کامل بدن را با دقت و تنوع بالا ارائه میدهد.
چارچوب کنترل دینامیک
روش پیشنهادی برای کنترل حرکت شخصیت دو بخش دارد. ابتدا، اتوانکودر واریاسیونال (VAE) آموزش داده میشود تا نمای نهفتهای از حرکت را از پنجرههای کوتاه نمونه برداری شده تصادفی دادهها تولید کند. این فضای نهفته ویژگیهای اساسی حرکت را در مجموعهای بزرگ و متنوع از کلیپها به ثبت میرساند.
در مرحله دوم، یک سیاست یادگیری تقویتی آموزش داده میشود تا از این کد نهفته و دادههای حرکتی جاری برای کنترل شخصیت استفاده کند، با هدف ردیابی دقیق و حرکات روان. سیاست RL بر اساس هر دو وضعیت سینماتیک فعلی و کد نهفته قرار دارد که به هماهنگی ورودیهای جدید با حرکتهای یادگرفته شده کمک میکند.
نویسندگان اشاره کردند که همچنین شامل پاداشهایی برای دقت ردیابی، ماندگاری و صافی میشود، همراه با تصادفیسازی حوزه برای افزایش پایداری و جلوگیری از بیش از حد تطابق. این روش به طور موثر با ورودیهای دیده نشده مقابله میکند و دقت بالا را در کنترل حرکت برای شخصیتهای مجازی و روباتیک حفظ میکند.
علاوه بر این، تکنیک مذکور به طور موثری با تنوع حرکت و پیچیدگی آموزش مقیاس میشود، حرکات دینامیک دیده نشده را با دقت ردیابی میکند و با تکنیکهای انیمیشن معمول سازگار است.
تکنیکهای حرکت مقاوم
محققان ادعا میکنند که نمایشها روی شخصیتهای مجازی و فیزیکی
انساننما
نشان میدهند که این روش به طور مقاوم حرکات بیانی را اجرا میکند، حتی در حدود فیزیکی سختافزار.
کاربران ممکن است حرکات شخصیت را با استفاده از رابط حرکتی سینماتیک به دقت کنترل کنند، و روش آموزش دو مرحلهای میتواند طیف گستردهای از مهارتها را مدیریت کند. انتظار میرود این روش با روشهای کنترل مختلف و وظایف مولد ترکیب شود، هرچند مستقیماً آزمایش نشده است.
با این حال، در حرکاتی که شامل برنامهریزی بلندمدت هستند، مانند آکروباتیک، که نیاز به طراحیهای پیچیدهتر دارند، مشکل دارد. علاوه بر این، اگرچه روش برای ردیابی مراجع سینماتیک به خوبی کار میکند، پتانسیل مولد آن هنوز نامعلوم است.
محققان ادعا میکنند که با نمایش حرکات بیانی روی سختافزار
رباتیک
، این کار پیشرفتهای گرافیک کامپیوتری و رباتیک را متحد میکند و نشان میدهد که تکنیکهای خودنظارتی و یادگیری تقویتی میتوانند به سیاستهای کنترل جهانی منجر شوند.