گلادیا معتقد است پردازش در زمان واقعی نقطه عطف بعدی APIهای رونویسی صوتی است
استارتاپ فرانسوی گلادیا ، که یک رابط برنامهنویسی کاربردی (API) تشخیص گفتار ارائه میدهد، مبلغ 16 میلیون دلار در دور سرمایهگذاری سری A جذب کرده است. اساساً، API گلادیا به شما اجازه میدهد هر فایل صوتی را با دقت بالا و زمان بازگشت پایین به متن تبدیل کنید.
در حالی که آمازون، مایکروسافت و گوگل همگی APIهای تبدیل گفتار به متن را به عنوان بخشی از مجموعه محصولات ابری خود ارائه میدهند، اما به خوبی مدلهای جدیدتر ارائه شده توسط استارتاپهای خاص عمل نمیکنند.
در این زمینه طی چند سال گذشته پیشرفتهای عظیمی صورت گرفته است، به ویژه پس از انتشار ویسپیر توسط OpenAI. گلادیا با دیگر شرکتهایی که در این زمینه خوب تامین مالی شدهاند، مانند AssemblyAI ، Deepgram و Speechmatics رقابت میکند.
گلادیا در ابتدا یک نسخه بهینهسازیشده از مدل گفتار به متن ویسپیر با برخی بهبودهای ضروری ارائه داد. به عنوان مثال، استارتاپ از جعبه دیاریزا پشتیبانی میکند — میتواند تشخیص دهد که در یک گفتگو چندین سخنگو وجود دارد و ضبط و متن رونویسی شده را بر اساس سخنگو تفکیک کند.
گلادیا از ۱۰۰ زبان و انواع مختلف لهجهها پشتیبانی میکند. این گزارشگر میتواند تایید کند که در عمل کار میکند، زیرا ما از گلادیا برای رونویسی برخی مصاحبهها استفاده کردهایم و لهجهها مشکلی نبودهاند.
این استارتاپ مدل گفتار به متن خود را به عنوان یک API میزبانیشده ارائه میدهد که کاربران میتوانند در نرمافزارها و خدمات خود استفاده کنند. بیش از ۶۰۰ شرکت از جمله چندین ضبطکننده جلسه و دستیار یادداشتبرداری مانند Attention، Circleback، Method Financial، Recall، Sana و Veed.io از گلادیا استفاده میکنند.
این کاربرد خاص جالب است، زیرا بسیاری از شرکتها باید تماسهای API را به زنجیره بکشند. آنها ابتدا گفتار را به متن تبدیل میکنند، سپس آن را به یک مدل زبان بزرگ (LLM) مانند GPT-4o یا Claude 3.5 Sonnet میدهند تا از دیوارهای متن بزرگ دانش استخراج کنند.
با سرمایهگذاری جدید، گلادیا میخواهد این پردازش را با ادغام وظایف هوش صوتی و مبتنی بر LLM در یک تماس API سادهتر کند. به عنوان مثال، یک مشتری میتواند خلاصه یک گفتگو را از یک دسته نقطه گلوله تولید کند بدون اینکه نیاز به API LLM ثالث داشته باشد.
مشکل دیگر که گلادیا در پی حل آن است، تاخیر است. ممکن است برخی دموهای مکالمات صوتی زمان واقعی با یک عامل تماس مبتنی بر هوش مصنوعی را دیده باشید (۱۱x یک دموی خوب در وبسایت خود دارد) و این سیستمها باید بتوانند در زمان تقریبی واقعی رونویسی کنند تا این مکالمات تا حد امکان شبیه به مکالمات انسانی به نظر برسند.
همبنیانگذار و مدیرعامل ژان-لویی کگینر به TechCrunch گفت: "ما متوجه شدیم که در کل بازار، زمان واقعی از نظر کیفیت چندان خوب نیست. و مردم یک کاربرد عجیب داشتهاند. آنها پردازش زمان واقعی میکردند، سپس صوت را گرفته و در دسته پردازش میکردند. ما تعجب کردیم: 'چرا این کار را انجام میدهید؟' آنها به ما گفتند: 'کیفیت در پردازش زمان واقعی خوب نیست، بنابراین تجزیه و تحلیل را به صورت دستهای انجام میدهیم.'"
گلادیا تصمیم گرفت با این مشکل مقابله کند و در حال حاضر میتواند یک گفتگو زنده را با تاخیری کمتر از ۳۰۰ میلیثانیه رونویسی کند. شرکت ادعا میکند که پردازش زمان واقعی اکنون تقریباً به اندازه API رونویسی دستهای غیرهمزمان به خوبی عمل میکند، اما بدون برخی تستهای مناسب، قضاوت سخت است. همانطور که کگینر میگوید، این استارتاپ در پی "کیفیت دستهای با قابلیتهای زمان واقعی" است.
علاوه بر عوامل تماس هوش مصنوعی، میتوانید تصور کنید که یک مرکز تماس از این قابلیتهای زمان واقعی برای کمک به عوامل تماس در یافتن اطلاعات مرتبط استفاده کند. "API یکپارچه ما با همه استکهای فناوری موجود و پروتکلها از جمله SIP، VoIP، FreeSwitch و Asterisk سازگار است," همبنیانگذار و مدیر فنی جاناتان سوتو در بیانیهای گفت.
XAnge رهبری دور سرمایهگذاری سری A را بر عهده دارد. Illuminate Financial، XTX Ventures، Athletico Ventures، Gaingels، Mana Ventures، Motier Ventures، Roosh Ventures و Soma Capital نیز مشارکت کردند.
گلادیا معتقد است که ما در آستانه یک "لحظه ChatGPT" برای برنامههای صوتی قرار داریم. فناوری GPT سالها است که وجود دارد، اما ChatGPT واقعاً LLMها را با واسط چتگونهٔ مصرفکننده شناساند.
وقتی اپل یا گوگل شروع به گنجاندن مدلهای رونویسی در iOS یا Android کنند، مصرفکنندگان ارزش رونویسی خودکار را در برنامههایی که استفاده میکنند درک خواهند کرد. توسعهدهندگان به احتمال زیاد سپس ویژگیهای صوتی را در محصولات خود ادغام میکنند و در آنجاست که ارائهدهندگان API مانند گلادیا وارد عمل میشوند.