تکنولوژی

تولید هوش مصنوعی توسط Twelve Labs برای تحلیل و جستجوی ویدیوها

Twelve Labs در حال توسعه مدل‌های هوش مصنوعی است که قادر به تحلیل و جستجوی محتوای ویدیوها هستند. استفاده از این مدل‌ها به کاربران اجازه می‌دهد تا لحظات خاصی را در ویدیوها پیدا کنند، کلیپ‌ها را خلاصه کنند یا سوال‌هایی مانند "چه زمانی فردی با پیراهن قرمز وارد رستوران شد؟" را بپرسند. این شرکت حمایت تعدادی از شرکت‌های بزرگ از جمله Nvidia، Samsung و Intel را جلب کرده است. با توجه به پیچیدگی و گستردگی داده‌های ویدیویی، قابلیت‌های جستجو و تحلیل که توسط Twelve Labs ارائه می‌شوند، می‌توانند کمک بزرگی به صنایع مختلف باشند. همچنین، این شرکت در حال گسترش دامنه فعالیت‌های خود به حوزه‌های دیگری مانند جستجوی «هر به هر» و تعبیه‌های چندمدلی است. سرمایه‌گذاری کلان اخیر توسط Databricks و Snowflake پشتیبانی استراتژیکی از این شرکت محسوب می‌شود و مبلغ جمع‌آوری شده در مجموع به ۱۰۷.۱ میلیون دلار رسیده است.

مدل‌های هوش مصنوعی که ویدیوها و متن‌ها را درک می‌کنند می‌توانند کاربردهای جدید و قدرتمندی را باز کنند. حداقل این چیزی است که جای لی، یکی از بنیان‌گذاران Twelve Labs ، به آن باور دارد.

از منظر لی ممکن است کمی جانبدارانه به نظر برسد. Twelve Labs مدل‌هایی برای تحلیل ویدیوها ایجاد می‌کند که برای موارد گوناگونی کاربرد دارند. اما ممکن است در ادعای او نکته‌ای باشد.

با استفاده از مدل‌های Twelve Labs، کاربران می‌توانند در ویدیوها برای لحظات خاص جستجو کنند، کلیپ‌ها را خلاصه کنند یا سوالاتی مانند "زمان ورود فردی با پیراهن قرمز به رستوران چه بود؟" بپرسند. این مجموعه‌ای قدرتمند از قابلیت هاست که شاید به همین دلیل شرکت‌هایی چون انویدیا، سامسونگ، و اینتل سرمایه‌گذاری کرده‌اند.

برای لی که یک دانشمند داده است، جستجوی پایه برای ویدیوها هرگز منطقی نبود. جستجو بر اساس کلمات کلیدی می‌تواند عنوان‌ها، برچسب‌ها و توضیحات را پیدا کند، اما نمی‌تواند به محتوای واقعی کلیپ‌ها دست یابد.

«ویدیو سریع‌ترین رشد را دارد — و بیشترین حجم داده را دارد — اما هنوز بیشتر سازمان‌ها منابع انسانی لازم برای پردازش بایگانی‌های ویدیویی خود را اختصاص نمی‌دهد،» لی به تک‌کرانچ گفت. «حتی اگر به صورت دستی برچسب‌گذاری کنید، مشکل را حل نخواهد کرد. پیدا کردن لحظه‌ای خاص یا زاویه‌ای در ویدیوها مانند یافتن سوزنی در کاهدان است.»

بعد از ناکامی در یافتن راه‌حلی بهتر، لی سایر همتایان خود آیدن لی، اس‌جی کیم، دیو چانگ و سوییونگ لی را برای ساختن راه‌حلی به همکاری فراخواند. این بود که Twelve Labs شکل گرفت، که مدل‌هایی برای تطابق متن با آنچه که درون ویدیو اتفاق می‌افتد از جمله اعمال، اشیا و صداهای پس‌زمینه تربیت می‌کند.

مدل‌هایی مانند Gemini گوگل می‌توانند ویدیوها را جستجو کنند و شرکت‌هایی مانند مایکروسافت و آمازون خدمات تحلیل ویدیو برای شناسایی اشیا در کلیپ‌ها ارائه می‌دهند. اما لی مدعی است که محصولات Twelve Labs با انتخاب‌های شخصی‌سازی‌شدشان که به مشتریان امکان تنظیم مدل‌ها با استفاده از داده‌های خودشان را می‌دهد متمایز می‌شوند.

Twelve Labs

«شرکت‌هایی مانند OpenAI و گوگل به شدت در مدل‌های مولتی‌مدال عمومی سرمایه‌گذاری می‌کنند،» لی گفت، «اما این مدل‌ها برای ویدیو بهینه‌نشده‌اند. تفاوت ما در این است که از روز اول به ویدیو متمرکز شده‌ایم... ما باور داریم که ویدیو شایسته تمرکز کامل ماست — این یک افزودنی نیست.»

توسعه‌دهندگان می‌توانند برنامه‌هایی بر پایه مدل‌های Twelve Labs بسازند و در ویدیوها جستجو کنند و بیشتر. فناوری این شرکت می‌تواند به موضوعاتی چون درج تبلیغات، مدیریت محتوا و تولید خودکار دست برگزیده از کلیپ‌ها بپردازد.

زمانی که پارسال با لی صحبت کردم در مورد امکان تعصب در مدل‌های Twelve Labs پرسیدم. این یک عامل ریسک جدی است. یک مطالعه در ۲۰۲۱ نشان داد که تمرین یک مدل درک ویدیویی بر کلیپ‌های اخبار محلی، که معمولاً جرم را به شیوه‌ای نژادی پوشش می‌دهد، می‌تواند باعث یادگیری الگوهای نژادپرستانه در مدل شود.

لی گفت در آن زمان که Twelve Labs قصد داشت معیارها و مجموعه داده‌های مرتبط با رفتار اخلاقی مدل‌ها را منتشر کند. شرکت هنوز این ابزارها را منتشر نکرده است. در گفتگوی اخیرمان، لی به من اطمینان داد که این ابزارها در راه هستند و Twelve Labs بر روی تمامی مدل‌های خود قبل از انتشار آزمایشات تعصب انجام می‌دهد.

«ما هنوز معیارهای تعصبی رسمی منتشر نکرده‌ایم زیرا می‌خواهیم اطمینان حاصل کنیم که آن‌ها با معنا، عملی و کاربردی باشند،» او گفت. «هدف کلی ما توسعه معیارهایی است که نه تنها ما را پاسخگو کنند، بلکه همچنین یک استاندارد در صنعت ایجاد کنند... تا این هدف را کاملاً به انجام نرسانیم — و ما تیمی داریم که بر روی این کار می‌کنند — ما فعلاً در حال ساختن هوش مصنوعی‌ای هستیم که سازمان‌ها را با مسئولیت‌پذیری تقویت کند، به آزادی‌های مدنی مردم احترام بگذارد و تغییرات فناوری را پیش ببرد.»

لی اضافه کرد که Twelve Labs مدل‌های خود را بر روی مجموعه‌ای از داده‌های عمومی و دارای حق استفاده تمرین می‌کند و از داده‌های مشتریان برای تمرین استفاده نمی‌کنند.

حالت رشد

تحلیل ویدیو همچنان شالوده‌ای است که Twelve Labs بر روی آن عمل می‌کند. اما در تلاشی برای حفظ خلاقیت، این شرکت همچنین به حوزه‌های دیگری مانند جستجوی «هر به هر» و تعیั้ง‌های چندمدلی وارد شده است.

یکی از مدل‌های Twelve Labs، Marengo, می‌تواند علاوه بر ویدیو در میان تصاویر و صداها نیز جستجو کند و یک ضبط صدای مرجع، تصویر، یا کلیپ ویدیویی برای هدایت جستجو بپذیرد.

سایر نقاط، شرکت API, به نام Embed API, برای ایجاد تعبیه‌های چندمدلی برای ویدیوها، متن‌ها، تصاویر، و فایل‌های صوتی ارائه می‌دهد. تعبیه‌ها بازنمایش‌های ریاضی از معنا و روابط میان نقاط داده‌ای مختلف را نشان می‌دهند که آن‌ها را برای کاربردهایی مانند کشف ناهنجاری‌ها مفید می‌ساز

پرتفوی رو به رشد محصولات Twelve Labs به استارت‌آپ کمک کرده است تا در بسیاری از فضاهای شرکتی، رسانه‌ای و سرگرمی مشتری جذب کند. دو شریک برجسته دیتابریکس و سنوفلاک هستند، هر دو در حال ساخت ابزارهای Twelve Labs در پیشنهادات خود هستند.

Twelve Labs

دیتابریکس یک یکپارچه‌سازی ساخته است که به مشتریان اجازه می‌دهد خدمات تعبیه Twelve Labs را از پایپ‌لاین‌های داده موجود خود استفاده کنند. سنوفلاک در حالی که در حال ساخت اتصالات به مدل‌های Twelve Labs در Cortex AI, خدمت AI کاملاً مدیریت شده خود است.

«در حال حاضر بیش از ۳۰٬۰۰۰ توسعه‌دهنده از پلتفرم ما استفاده می‌کنند، از افراد کاری‌آشنا تا شرکت‌های بزرگ که تکنولوژی ما را در جریان‌کارشان یکپارچه می‌کنند،» لی گفت. «برای مثال، ما با شهرداری‌ها برای کاربردهایی مانند کشف تهدید در زمان واقعی، بهبود زمان‌های پاسخ اضطراری و کمک به مدیریت ترافیک همکاری کرده‌ایم.»

به عنوان یک نمایش از حمایت استراتژیک، هم دیتابریکس و هم سنوفلاک این ماه از طریق بخش‌های سرمایه‌گذاری مخاطره‌ای خود در Twelve Labs سرمایه‌گذاری کرده‌اند. SK Telecom و Hubspot Ventures به همراه In-Q-Tel, یک VC غیرانتفاعی مستقر در آرلینگتون، ویرجینیا که در استارت‌آپ‌های پشتیبانی‌کننده توانمندی‌های اطلاعاتی ایالات متحده سرمایه‌گذاری می‌کند.

کل سرمایه‌گذاری‌های جدید به ۳۰ میلیون دلار رسید که مجموعاً به ۱۰۷.۱ میلیون دلار رسیده است. لی می‌گوید که درآمدها به توسعه محصول و استخدام می‌رود.

«ما در وضعیت مالی بسیار قوی‌ای قرار داریم، اما دیدیم که می‌توانیم روابط استراتژیک کلیدی با رهبرانی که عمیقاً به Twelve Labs باور دارند تعمیق کنیم،» لی گفت. «ما در حال حاضر ۷۳ کارمند تمام‌وقت داریم و در حال برنامه‌ریزی برای سرمایه‌گذاری‌های قابل توجه در استخدام در مهندسی، تحقیق و نقش‌های مشتری‌محور هستیم.»

استخدام جدید

در مبحث استخدام، Twelve Labs پنج‌شنبه اعلام کرد که رئیس جدیدی به دایره اجرایی خود اضافه می‌کند: یون کیم، رئیس سابق SK Telecom و کلیدی در طراحی Siri اپل. یون همچنین به عنوان مدیر استراتژی Twelve Labs خدمت خواهد کرد و برنامه گسترش تهاجمی استارت‌آپ را برانگیخته می‌کند.

«در حالی که برای شرکتی در سن و مرحله Twelve Labs استخدام رئیس غیرمعمول به نظر می‌رسد، این حرکت گواه بر تقاضای وافر بوده است،» لی گفت، افزود که یون بین دفتر مرکزی Twelve Labs در سان فرانسیسکو و دفاتر آن در سئول زمان خواهد گذراند. «یون فرد درست برای کمک به ما در اجرای وظایف است — او در رشد آینده با خریدهای کلیدی، گسترش حضور جهانی‌مان و همگرایی تیم‌های ما به سمت اهداف بلندپروازانه نقش کلیدی خواهد داشت.»

لی می‌گوید که هدف این است که به مناطق جدید و عمودی مرتبط مانند صنعت خودرو و امنیت طی چند سال آینده رشد کنیم. با توجه به دخالت In-Q-Tel, امنیت (و احتمالاً کار دفاعی) به نظر می‌رسد به مسئله نزدیک باشد؛ لی این موضوع را به صراحت تأیید نکرد.

«سرمایه‌گذاری In-Q-Tel تنوّع و پتانسیل تکنولوژی ما را را در بخش‌های مختلف از جمله امنیت ملی نشان می‌دهد،» لی گفت. «ما همیشه برای بررسی فرصت‌هایی که در آنجا تکنولوژی ما می‌تواند تأثیری مثبت، با معنا و با مسئولیت مصنوعاتی داشته باشد که با دستورالعمل‌های اخلاقی ما همخوانی دارد، باز هستیم.»

توسط
Tech Crunch
منبع
Tech Crunch
نمایش بیشتر

اخبار مرتبط

بازگشت به بالا