مشاهده کنید: تکنیک دو مرحله‌ای دیزنی داده‌های خام را به حرکات رقص روباتی تبدیل می‌کند

مهندسان در Disney Research توانسته‌اند ربات‌ها را از طریق بهره‌گیری از داده‌های حرکتی بدون ساختار، به یادگیری رقص وادار کنند.

تیم از تکنیک دو مرحله‌ای برای کنترل شخصیت با استفاده از حرکت سینماتیک کامل بدن استفاده کرده است.

ابتدا، آن‌ها یک اتوانکودر واریاسیونال را آموزش دادند تا با پردازش قطعات کوتاه حرکت از داده‌های بدون ساختار، نمای نهفته ایجاد کند. سپس از این نمای نهفته برای آموزش سیاست شرطی استفاده کردند که ورودی سینماتیک را به خروجی آگاه از دینامیک پیوند می‌داد.

با جدا کردن این مراحل، تیم کیفیت کدهای نهفته را بهبود بخشید و از مشکلاتی مانند فروپاشی حالت جلوگیری کرد. آن‌ها کارایی و پایداری این روش را در شبیه‌سازی‌ها و روی یک ربات دوپا نشان دادند و موفق به آوردن حرکات دینامیک به زندگی شدند.

آموزش موثر حرکت

انیمیشن شخصیت مبتنی بر فیزیک از طریق یادگیری تقویتی تقلیدی در سال‌های اخیر بهبود زیادی یافته است که امکان ردیابی دقیق بسیاری از مهارت‌ها را فراهم می‌کند. با این حال، روش‌های فعلی نمی‌توانند این کار را با یک سیاست واحد انجام دهند که بتواند حرکات دینامیک خام متنوع را همزمان با کنترل کامل بدن مدیریت کند.

روش‌های کنترل شخصیت که به یادگیری متکی هستند به طور چشمگیری پیشرفت کرده‌اند، به ویژه در سنتز حرکت سینماتیک و مبتنی بر فیزیک. روش‌های سینماتیک از نمایش فشرده حرکت یا مدل‌های مولد برای تولید حرکات روان و باورپذیر استفاده می‌کنند که گاهی فیزیک انجین‌ها را نیز برای حذف اشکالات به کار می‌گیرند.

فنون مبتنی بر یادگیری تقویتی عمیق با استفاده از فیزیک عمدتا روی تقلید از انیمیشن‌های مرجع متمرکز هستند، اما اغلب به تنظیمات پیچیده‌ای برای مهارت‌های مختلف نیاز دارند. در این حالت، رویکردها از فضاهای نهفته برای آموزش سیاست‌ها استفاده می‌کنند، تعادلی بین تنوع داده و دقت کنترل حفظ می‌کنند. با این حال، این‌ها اغلب به تنظیمات سفارشی یا بازآموزی گسترده نیاز دارند.

تکنیک جدید تیم Disney Research به طور موثری یک سیاست واحد را آموزش می‌دهد، کنترل کامل بدن را با دقت و تنوع بالا ارائه می‌دهد.

چارچوب کنترل دینامیک

روش پیشنهادی برای کنترل حرکت شخصیت دو بخش دارد. ابتدا، اتوانکودر واریاسیونال (VAE) آموزش داده می‌شود تا نمای نهفته‌ای از حرکت را از پنجره‌های کوتاه نمونه برداری شده تصادفی داده‌ها تولید کند. این فضای نهفته ویژگی‌های اساسی حرکت را در مجموعه‌ای بزرگ و متنوع از کلیپ‌ها به ثبت می‌رساند.

در مرحله دوم، یک سیاست یادگیری تقویتی آموزش داده می‌شود تا از این کد نهفته و داده‌های حرکتی جاری برای کنترل شخصیت استفاده کند، با هدف ردیابی دقیق و حرکات روان. سیاست RL بر اساس هر دو وضعیت سینماتیک فعلی و کد نهفته قرار دارد که به هماهنگی ورودی‌های جدید با حرکت‌های یادگرفته شده کمک می‌کند.

نویسندگان اشاره کردند که همچنین شامل پاداش‌هایی برای دقت ردیابی، ماندگاری و صافی می‌شود، همراه با تصادفی‌سازی حوزه برای افزایش پایداری و جلوگیری از بیش از حد تطابق. این روش به طور موثر با ورودی‌های دیده نشده مقابله می‌کند و دقت بالا را در کنترل حرکت برای شخصیت‌های مجازی و روباتیک حفظ می‌کند.

علاوه بر این، تکنیک مذکور به طور موثری با تنوع حرکت و پیچیدگی آموزش مقیاس می‌شود، حرکات دینامیک دیده نشده را با دقت ردیابی می‌کند و با تکنیک‌های انیمیشن معمول سازگار است.

تکنیک‌های حرکت مقاوم

محققان ادعا می‌کنند که نمایش‌ها روی شخصیت‌های مجازی و فیزیکی انسان‌نما نشان می‌دهند که این روش به طور مقاوم حرکات بیانی را اجرا می‌کند، حتی در حدود فیزیکی سخت‌افزار.

کاربران ممکن است حرکات شخصیت را با استفاده از رابط حرکتی سینماتیک به دقت کنترل کنند، و روش آموزش دو مرحله‌ای می‌تواند طیف گسترده‌ای از مهارت‌ها را مدیریت کند. انتظار می‌رود این روش با روش‌های کنترل مختلف و وظایف مولد ترکیب شود، هرچند مستقیماً آزمایش نشده است.

با این حال، در حرکاتی که شامل برنامه‌ریزی بلندمدت هستند، مانند آکروباتیک، که نیاز به طراحی‌های پیچیده‌تر دارند، مشکل دارد. علاوه بر این، اگرچه روش برای ردیابی مراجع سینماتیک به خوبی کار می‌کند، پتانسیل مولد آن هنوز نامعلوم است.

محققان ادعا می‌کنند که با نمایش حرکات بیانی روی سخت‌افزار رباتیک ، این کار پیشرفت‌های گرافیک کامپیوتری و رباتیک را متحد می‌کند و نشان می‌دهد که تکنیک‌های خودنظارتی و یادگیری تقویتی می‌توانند به سیاست‌های کنترل جهانی منجر شوند.

توسط
Interesting Engineering
منبع
Interesting Engineering
Exit mobile version