"پروژه GR00T: انویدیا برای تقویت دقت و حرکت رباتها با ابزارهای جدید هوش مصنوعی و شبیهسازی"
انویدیا ابزارها و فرآیندهای جدیدی از هوش مصنوعی و شبیهسازی معرفی کرده است که به توسعهدهندگان رباتیک در تسریع شدید کار خود بر روی رباتهای مجهز به هوش مصنوعی کمک میکند.
این مجموعه که این هفته در کنفرانس یادگیری ربات (CoRL) در مونیخ آلمان رونمایی شد، شامل توفر عمومی چارچوب یادگیری ربات انویدیا Isaac Lab، و شش فرآیند یادگیری ربات انساننما جدید برای پروژه GR00T، که تلاشی برای تسریع توسعه رباتهای انساننما است، میباشد.
شرکت همچنین ابزارهای جدید توسعه مدل جهان برای گردآوری و پردازش دادههای ویدیویی را شامل توکنایزر انویدیا Cosmos و NeMo Curator برای پردازش ویدیو معرفی کرد.
پروژه GR00T برای پیشرفت در توسعه رباتها
جیم فن، مدیر ارشد تحقیقات هوش مصنوعی مجسم در انویدیا، گفت: "رباتهای انساننما موج بعدی از هوش مصنوعی مجسم هستند."
"تیمهای تحقیق و مهندسی انویدیا با همکاری در سراسر شرکت و اکوسیستم توسعهدهنده ما، پروژه GR00T را برای کمک به پیشرفت و توسعه جهانی توسعهدهندگان رباتهای انساننما بنا میکنند."
شرکت اعلام کرد که شش فرآیند جدید پروژه GR00T به توسعهدهندگان انساننما طرحهایی میدهد تا پیچیدهترین قابلیتهای رباتهای انساننما را تحقق بخشند. این موارد شامل GR00T-Gen، GR00T-Mimic، GR00T-Dexterity، GR00T-Control، GR00T-Mobility و GR00T-Perception میباشند.
توکنایزر انویدیا Cosmos
اریک جانگ، معاون هوش مصنوعی در تکنولوژی 1X، بیان کرد که توکنایزر انویدیا Cosmos فشردهسازی زمانی و مکانی بسیار بالایی از "دادههای ما در حالی که همچنان وضوح بصری را حفظ میکند" بدست میآورد.
"این به ما اجازه میدهد تا مدلهای دنیا را با تولید ویدیو با افق طولانی و به گونهای حتی کارآمدتر از نظر محاسباتی تعلیم دهیم"، جانگ اضافه کرد.
توکنایزر Cosmos با ارائه فشردهسازی با کیفیت بالا و تا 12 برابر بازسازی بصری سریعتر، راه را برای توسعه مقیاسپذیر، مطمئن و کارآمد برنامههای تولیدی در سراسر طیف وسیعی از دامنههای دیداری هموار میکند، بر اساس گفته انویدیا.
توکنسازی بصری برتر
شرکت اعلام کرد که توکنایزر Cosmos منبع باز به توسعهدهندگان رباتیک امکان توکنسازی بصری برتر را فراهم میکند، با شکستن تصاویر و ویدیوها به توکنهای با کیفیت بالا با نرخ فشردهسازی بسیار بالا. این تا 12 برابر سریعتر از توکنایزرهای موجود کار میکند، در حالی که NeMo Curator فرآیند گردآوری ویدیو را تا 7 برابر سریعتر از خطوط لوله بهینهنشده فراهم میکند.
توسعهدهندگان ربات انساننمای دیگر، از جمله XPENG Robotics و Hillbot، از توکنایزر انویدیا Cosmos برای مدیریت تصاویر و ویدیوهای با کیفیت بالا استفاده میکنند.
NeMo Curator
NeMo Curator اکنون شامل یک خط لوله پردازش ویدیو میباشد. این به توسعهدهندگان ربات اجازه میدهد تا دقت مدل جهانی خود را با پردازش متن، تصویر و دادههای ویدیویی در مقیاس بزرگ بهبود بخشند، بر اساس گفته انویدیا.
شرکت مدعی است که گردآوری دادههای ویدیویی به علت اندازه عظیم آنها چالشهایی به همراه دارد و نیازمند خطوط لوله مقیاسپذیر و هماهنگسازی کارآمد برای توزیع بار در میان GPUهاست. علاوه بر این، مدلهای فیلترینگ، زیرنویسگذاری و تعبیه نیاز به بهینهسازی دارند تا حجم کاری را به حداکثر برسانند.
شرکت اعلام کرد که NeMo Curator این چالشها را با سادهسازی فرآیند گردآوری داده با هماهنگسازی خودکار خطوط لوله برطرف میکند، زمان پردازش را به شدت کاهش میدهد. این از مقیاسبندی خطی در میان سیستمهای چند نود و چند GPU پشتیبانی میکند، بیش از 100 پتابایت داده را به طور کارآمد مدیریت میکند. این امر توسعه هوش مصنوعی را ساده میکند، هزینهها را کاهش میدهد و زمان به بازار آوردن را تسریع میکند.
همزمان با CoRL، انویدیا 23 مقاله و 9 کارگاه مرتبط با یادگیری ربات را ارائه داد و راهنماییهای آموزشی و فرایندهایی برای توسعهدهندگان منتشر کرد. به علاوه، Hugging Face و انویدیا اعلام کردند که در حال همکاری برای تسریع تحقیقات رباتیک منبع باز با LeRobot، NVIDIA Isaac Lab و NVIDIA Jetson برای جامعه توسعهدهنده هستند، شرکت در یک بیانیه مطبوعاتی .