تکنولوژی

رقیب قدرتمند Sora؛ گوگل از هوش مصنوعی ویدیوساز Veo 2 رونمایی کرد [تماشا کنید]

رقیب این مدل، Sora، می‌تواند کلیپ‌های 20 ثانیه‌ای 1080p تولید کند.

گوگل همچنین یک نسخه به‌روزشده مدل تبدیل متن به عکس Imagen 3 را معرفی کرد؛ بااین‌حال تغییرات آن آنقدر زیاد نیستند که بتوان آن را یک مدل کاملاً جدید تلقی کرد و صرفاً نسخه‌ای بهبودیافته است.

هوش مصنوعی مولد ویدیوی Veo 2 گوگل

اگر می‌خواهید از مدل Veo 2 استفاده کنید باید به پلتفرم VideoFX بروید و در لیست انتظار بمانید؛ البته گوگل می‌گوید تعداد کاربرانی را که می‌توانند در این هفته به هوش مصنوعی جدید دسترسی داشته باشند، افزایش می‌دهد.

گوگل 7 ماه قبل از هوش مصنوعی Veo پرده برداشت و حالا Veo 2 از راه رسیده است. Veo 2 می‌تواند کلیپ‌های 2 دقیقه‌ای با حداکثر رزولوشن 4K (4096 در 2160 پیکسل) ایجاد کند. به عبارتی در مقایسه با هوش مصنوعی Sora ، مدل جدید گوگل ویدیوهایی با 4 برابر وضوح و حدود 6 برابر مدت زمان بیشتر ارائه می‌دهد.

براساس اعلام گوگل ، مدل Veo 2 می‌تواند ویدیوهای 2 دقیقه‌ای با کیفیت 4K تولید کند. البته درحال‌حاضر نمی‌توانید با چنین کیفیتی ویدیو بسازید و این ارقام صرفاً تئوری هستند؛ در ابزار آزمایشی ایجاد ویدیوی گوگل، VideoFX، یعنی جایی که Veo 2 اکنون به‌طور انحصاری در آن در دسترس است، ویدیوها به کیفیت 720p و طول 8 ثانیه محدود هستند. رقیب این مدل، Sora، می‌تواند کلیپ‌های 20 ثانیه‌ای 1080p تولید کند.

گوگل همچنین یک نسخه به‌روزشده مدل تبدیل متن به عکس Imagen 3 را معرفی کرد؛ بااین‌حال تغییرات آن آنقدر زیاد نیستند که بتوان آن را یک مدل کاملاً جدید تلقی کرد و صرفاً نسخه‌ای بهبودیافته است.

هوش مصنوعی مولد ویدیوی Veo 2 گوگل

اگر می‌خواهید از مدل Veo 2 استفاده کنید باید به پلتفرم VideoFX بروید و در لیست انتظار بمانید؛ البته گوگل می‌گوید تعداد کاربرانی را که می‌توانند در این هفته به هوش مصنوعی جدید دسترسی داشته باشند، افزایش می‌دهد. همچنین به گفته گوگل، Veo 2 از طریق پلتفرم توسعه‌دهنده Vertex AI نیز در دسترس خواهد بود. درکل این شرکت می‌خواهد در ماه‌های آینده، براساس بازخورد کاربران، مدل جدید را به بخش‌های مختلف اکوسیستم خود بیاورد.

مانند هر مدل مولد ویدیوی دیگری، Veo 2 نیز از طریق پرامپت‌های متنی برای شما ویدیو می‌سازد. اما این مدل مزیت‌هایی نسبت به رقبا دارد؛ مدل جدید گوگل می‌تواند کلیپ‌ها را در طیف وسیعی از سبک‌ها تولید کند، همچنین درک آن از فیزیک بهبود یافته‌ است و فیلم‌های آن «واضح‌تر» هستند.

واضح‌تر به این معنی است که بافت‌ها و تصاویر در کلیپ‌ها، به خصوص در صحنه‌هایی با حرکت زیاد، واضح‌تر هستند. همچنین کنترل دوربین حالا بهتر شده و در Veo 2 دوربین مجازی را می‌توان بهتر در زوایای مختلف قرار داد.

گوگل همچنین ادعا می‌کند که Veo 2 می‌تواند حرکت دینامیک سیالات (مانند ریختن قهوه در لیوان) و ویژگی‌های نور (مانند سایه‌ها و بازتاب‌ها) را به‌طور واقعی‌تر مدل‌سازی کند. گوگل مدعی است این مدل کمتر دچار توهم می‌شود و خطاهای رایج مدل‌های دیگر مانند انگشت‌های اضافی را تولید نمی‌کند، بااین‌حال نمی‌توان با قطعیت این ادعا را پذیرفت.

گوگل هنوز اعلام نکرده که منابع آموزشی مدل Veo 2 چه بوده‌اند، اما ویدیوهای یوتوب یکی از منابع احتمالی است. گوگل مالک یوتوب است و پیش‌ازاین نیز این شرکت گفته بود که در توسعه مدل‌هایی مانند Veo «ممکن است» از محتوای یوتوب استفاده شود.

توسط
دیجیاتو
منبع
دیجیاتو
نمایش بیشتر

اخبار مرتبط

بازگشت به بالا