مدلهای هوش مصنوعی که ویدیوها و متنها را درک میکنند میتوانند کاربردهای جدید و قدرتمندی را باز کنند. حداقل این چیزی است که جای لی، یکی از بنیانگذاران Twelve Labs ، به آن باور دارد.
از منظر لی ممکن است کمی جانبدارانه به نظر برسد. Twelve Labs مدلهایی برای تحلیل ویدیوها ایجاد میکند که برای موارد گوناگونی کاربرد دارند. اما ممکن است در ادعای او نکتهای باشد.
با استفاده از مدلهای Twelve Labs، کاربران میتوانند در ویدیوها برای لحظات خاص جستجو کنند، کلیپها را خلاصه کنند یا سوالاتی مانند "زمان ورود فردی با پیراهن قرمز به رستوران چه بود؟" بپرسند. این مجموعهای قدرتمند از قابلیت هاست که شاید به همین دلیل شرکتهایی چون انویدیا، سامسونگ، و اینتل سرمایهگذاری کردهاند.
جستجوی ویدیو
برای لی که یک دانشمند داده است، جستجوی پایه برای ویدیوها هرگز منطقی نبود. جستجو بر اساس کلمات کلیدی میتواند عنوانها، برچسبها و توضیحات را پیدا کند، اما نمیتواند به محتوای واقعی کلیپها دست یابد.
«ویدیو سریعترین رشد را دارد — و بیشترین حجم داده را دارد — اما هنوز بیشتر سازمانها منابع انسانی لازم برای پردازش بایگانیهای ویدیویی خود را اختصاص نمیدهد،» لی به تککرانچ گفت. «حتی اگر به صورت دستی برچسبگذاری کنید، مشکل را حل نخواهد کرد. پیدا کردن لحظهای خاص یا زاویهای در ویدیوها مانند یافتن سوزنی در کاهدان است.»
بعد از ناکامی در یافتن راهحلی بهتر، لی سایر همتایان خود آیدن لی، اسجی کیم، دیو چانگ و سوییونگ لی را برای ساختن راهحلی به همکاری فراخواند. این بود که Twelve Labs شکل گرفت، که مدلهایی برای تطابق متن با آنچه که درون ویدیو اتفاق میافتد از جمله اعمال، اشیا و صداهای پسزمینه تربیت میکند.
مدلهایی مانند Gemini گوگل میتوانند ویدیوها را جستجو کنند و شرکتهایی مانند مایکروسافت و آمازون خدمات تحلیل ویدیو برای شناسایی اشیا در کلیپها ارائه میدهند. اما لی مدعی است که محصولات Twelve Labs با انتخابهای شخصیسازیشدشان که به مشتریان امکان تنظیم مدلها با استفاده از دادههای خودشان را میدهد متمایز میشوند.
«شرکتهایی مانند OpenAI و گوگل به شدت در مدلهای مولتیمدال عمومی سرمایهگذاری میکنند،» لی گفت، «اما این مدلها برای ویدیو بهینهنشدهاند. تفاوت ما در این است که از روز اول به ویدیو متمرکز شدهایم... ما باور داریم که ویدیو شایسته تمرکز کامل ماست — این یک افزودنی نیست.»
توسعهدهندگان میتوانند برنامههایی بر پایه مدلهای Twelve Labs بسازند و در ویدیوها جستجو کنند و بیشتر. فناوری این شرکت میتواند به موضوعاتی چون درج تبلیغات، مدیریت محتوا و تولید خودکار دست برگزیده از کلیپها بپردازد.
زمانی که پارسال با لی صحبت کردم در مورد امکان تعصب در مدلهای Twelve Labs پرسیدم. این یک عامل ریسک جدی است. یک مطالعه در ۲۰۲۱ نشان داد که تمرین یک مدل درک ویدیویی بر کلیپهای اخبار محلی، که معمولاً جرم را به شیوهای نژادی پوشش میدهد، میتواند باعث یادگیری الگوهای نژادپرستانه در مدل شود.
لی گفت در آن زمان که Twelve Labs قصد داشت معیارها و مجموعه دادههای مرتبط با رفتار اخلاقی مدلها را منتشر کند. شرکت هنوز این ابزارها را منتشر نکرده است. در گفتگوی اخیرمان، لی به من اطمینان داد که این ابزارها در راه هستند و Twelve Labs بر روی تمامی مدلهای خود قبل از انتشار آزمایشات تعصب انجام میدهد.
«ما هنوز معیارهای تعصبی رسمی منتشر نکردهایم زیرا میخواهیم اطمینان حاصل کنیم که آنها با معنا، عملی و کاربردی باشند،» او گفت. «هدف کلی ما توسعه معیارهایی است که نه تنها ما را پاسخگو کنند، بلکه همچنین یک استاندارد در صنعت ایجاد کنند... تا این هدف را کاملاً به انجام نرسانیم — و ما تیمی داریم که بر روی این کار میکنند — ما فعلاً در حال ساختن هوش مصنوعیای هستیم که سازمانها را با مسئولیتپذیری تقویت کند، به آزادیهای مدنی مردم احترام بگذارد و تغییرات فناوری را پیش ببرد.»
لی اضافه کرد که Twelve Labs مدلهای خود را بر روی مجموعهای از دادههای عمومی و دارای حق استفاده تمرین میکند و از دادههای مشتریان برای تمرین استفاده نمیکنند.
حالت رشد
تحلیل ویدیو همچنان شالودهای است که Twelve Labs بر روی آن عمل میکند. اما در تلاشی برای حفظ خلاقیت، این شرکت همچنین به حوزههای دیگری مانند جستجوی «هر به هر» و تعیั้งهای چندمدلی وارد شده است.
یکی از مدلهای Twelve Labs، Marengo, میتواند علاوه بر ویدیو در میان تصاویر و صداها نیز جستجو کند و یک ضبط صدای مرجع، تصویر، یا کلیپ ویدیویی برای هدایت جستجو بپذیرد.
سایر نقاط، شرکت API, به نام Embed API, برای ایجاد تعبیههای چندمدلی برای ویدیوها، متنها، تصاویر، و فایلهای صوتی ارائه میدهد. تعبیهها بازنمایشهای ریاضی از معنا و روابط میان نقاط دادهای مختلف را نشان میدهند که آنها را برای کاربردهایی مانند کشف ناهنجاریها مفید میساز
پرتفوی رو به رشد محصولات Twelve Labs به استارتآپ کمک کرده است تا در بسیاری از فضاهای شرکتی، رسانهای و سرگرمی مشتری جذب کند. دو شریک برجسته دیتابریکس و سنوفلاک هستند، هر دو در حال ساخت ابزارهای Twelve Labs در پیشنهادات خود هستند.
دیتابریکس یک یکپارچهسازی ساخته است که به مشتریان اجازه میدهد خدمات تعبیه Twelve Labs را از پایپلاینهای داده موجود خود استفاده کنند. سنوفلاک در حالی که در حال ساخت اتصالات به مدلهای Twelve Labs در Cortex AI, خدمت AI کاملاً مدیریت شده خود است.
«در حال حاضر بیش از ۳۰٬۰۰۰ توسعهدهنده از پلتفرم ما استفاده میکنند، از افراد کاریآشنا تا شرکتهای بزرگ که تکنولوژی ما را در جریانکارشان یکپارچه میکنند،» لی گفت. «برای مثال، ما با شهرداریها برای کاربردهایی مانند کشف تهدید در زمان واقعی، بهبود زمانهای پاسخ اضطراری و کمک به مدیریت ترافیک همکاری کردهایم.»
به عنوان یک نمایش از حمایت استراتژیک، هم دیتابریکس و هم سنوفلاک این ماه از طریق بخشهای سرمایهگذاری مخاطرهای خود در Twelve Labs سرمایهگذاری کردهاند. SK Telecom و Hubspot Ventures به همراه In-Q-Tel, یک VC غیرانتفاعی مستقر در آرلینگتون، ویرجینیا که در استارتآپهای پشتیبانیکننده توانمندیهای اطلاعاتی ایالات متحده سرمایهگذاری میکند.
کل سرمایهگذاریهای جدید به ۳۰ میلیون دلار رسید که مجموعاً به ۱۰۷.۱ میلیون دلار رسیده است. لی میگوید که درآمدها به توسعه محصول و استخدام میرود.
«ما در وضعیت مالی بسیار قویای قرار داریم، اما دیدیم که میتوانیم روابط استراتژیک کلیدی با رهبرانی که عمیقاً به Twelve Labs باور دارند تعمیق کنیم،» لی گفت. «ما در حال حاضر ۷۳ کارمند تماموقت داریم و در حال برنامهریزی برای سرمایهگذاریهای قابل توجه در استخدام در مهندسی، تحقیق و نقشهای مشتریمحور هستیم.»
استخدام جدید
در مبحث استخدام، Twelve Labs پنجشنبه اعلام کرد که رئیس جدیدی به دایره اجرایی خود اضافه میکند: یون کیم، رئیس سابق SK Telecom و کلیدی در طراحی Siri اپل. یون همچنین به عنوان مدیر استراتژی Twelve Labs خدمت خواهد کرد و برنامه گسترش تهاجمی استارتآپ را برانگیخته میکند.
«در حالی که برای شرکتی در سن و مرحله Twelve Labs استخدام رئیس غیرمعمول به نظر میرسد، این حرکت گواه بر تقاضای وافر بوده است،» لی گفت، افزود که یون بین دفتر مرکزی Twelve Labs در سان فرانسیسکو و دفاتر آن در سئول زمان خواهد گذراند. «یون فرد درست برای کمک به ما در اجرای وظایف است — او در رشد آینده با خریدهای کلیدی، گسترش حضور جهانیمان و همگرایی تیمهای ما به سمت اهداف بلندپروازانه نقش کلیدی خواهد داشت.»
لی میگوید که هدف این است که به مناطق جدید و عمودی مرتبط مانند صنعت خودرو و امنیت طی چند سال آینده رشد کنیم. با توجه به دخالت In-Q-Tel, امنیت (و احتمالاً کار دفاعی) به نظر میرسد به مسئله نزدیک باشد؛ لی این موضوع را به صراحت تأیید نکرد.
«سرمایهگذاری In-Q-Tel تنوّع و پتانسیل تکنولوژی ما را را در بخشهای مختلف از جمله امنیت ملی نشان میدهد،» لی گفت. «ما همیشه برای بررسی فرصتهایی که در آنجا تکنولوژی ما میتواند تأثیری مثبت، با معنا و با مسئولیت مصنوعاتی داشته باشد که با دستورالعملهای اخلاقی ما همخوانی دارد، باز هستیم.»