تکنولوژی

گلادیا معتقد است پردازش در زمان واقعی نقطه عطف بعدی APIهای رونویسی صوتی است

استارتاپ فرانسوی گلادیا که API شناسایی گفتار ارائه می‌دهد، در دور سرمایه‌گذاری سری A مبلغ 16 میلیون دلار جذب کرده است. API این شرکت به کاربران اجازه می‌دهد فایل‌های صوتی را با دقت بالا و زمان بازگشت پایین به متن تبدیل کنند. با پیشرفت‌های چشمگیر اخیر، گلادیا به رقابت با شرکت‌های دیگری همچون AssemblyAI، Deepgram و Speechmatics پرداخته است. جدیدترین هدف گلادیا، پردازش صوت در زمان واقعی با تأخیر کمتر از 300 میلی‌ثانیه و افزایش کیفیت ضبط‌های زنده است. شرکت‌های بسیاری از جمله ضبط‌کنندگان جلسات و دستیاران یادداشت‌برداری از API این شرکت بهره‌مند هستند.

استارتاپ فرانسوی گلادیا ، که یک رابط برنامه‌نویسی کاربردی (API) تشخیص گفتار ارائه می‌دهد، مبلغ 16 میلیون دلار در دور سرمایه‌گذاری سری A جذب کرده است. اساساً، API گلادیا به شما اجازه می‌دهد هر فایل صوتی را با دقت بالا و زمان بازگشت پایین به متن تبدیل کنید.

در حالی که آمازون، مایکروسافت و گوگل همگی APIهای تبدیل گفتار به متن را به عنوان بخشی از مجموعه محصولات ابری خود ارائه می‌دهند، اما به خوبی مدل‌های جدیدتر ارائه شده توسط استارتاپ‌های خاص عمل نمی‌کنند.

در این زمینه طی چند سال گذشته پیشرفت‌های عظیمی صورت گرفته است، به ویژه پس از انتشار ویسپیر توسط OpenAI. گلادیا با دیگر شرکت‌هایی که در این زمینه خوب تامین مالی شده‌اند، مانند AssemblyAI ، Deepgram و Speechmatics رقابت می‌کند.

گلادیا در ابتدا یک نسخه بهینه‌سازی‌شده از مدل گفتار به متن ویسپیر با برخی بهبودهای ضروری ارائه داد. به عنوان مثال، استارتاپ از جعبه دیاریزا پشتیبانی می‌کند — می‌تواند تشخیص دهد که در یک گفتگو چندین سخنگو وجود دارد و ضبط و متن رونویسی شده را بر اساس سخنگو تفکیک کند.

گلادیا از ۱۰۰ زبان و انواع مختلف لهجه‌ها پشتیبانی می‌کند. این گزارشگر می‌تواند تایید کند که در عمل کار می‌کند، زیرا ما از گلادیا برای رونویسی برخی مصاحبه‌ها استفاده کرده‌ایم و لهجه‌ها مشکلی نبوده‌اند.

این استارتاپ مدل گفتار به متن خود را به عنوان یک API میزبانی‌شده ارائه می‌دهد که کاربران می‌توانند در نرم‌افزارها و خدمات خود استفاده کنند. بیش از ۶۰۰ شرکت از جمله چندین ضبط‌کننده جلسه و دستیار یادداشت‌برداری مانند Attention، Circleback، Method Financial، Recall، Sana و Veed.io از گلادیا استفاده می‌کنند.

این کاربرد خاص جالب است، زیرا بسیاری از شرکت‌ها باید تماس‌های API را به زنجیره بکشند. آن‌ها ابتدا گفتار را به متن تبدیل می‌کنند، سپس آن را به یک مدل زبان بزرگ (LLM) مانند GPT-4o یا Claude 3.5 Sonnet می‌دهند تا از دیوارهای متن بزرگ دانش استخراج کنند.

با سرمایه‌گذاری جدید، گلادیا می‌خواهد این پردازش را با ادغام وظایف هوش صوتی و مبتنی بر LLM در یک تماس API ساده‌تر کند. به عنوان مثال، یک مشتری می‌تواند خلاصه یک گفتگو را از یک دسته نقطه گلوله تولید کند بدون اینکه نیاز به API LLM ثالث داشته باشد.

مشکل دیگر که گلادیا در پی حل آن است، تاخیر است. ممکن است برخی دموهای مکالمات صوتی زمان واقعی با یک عامل تماس مبتنی بر هوش مصنوعی را دیده باشید (۱۱x یک دموی خوب در وب‌سایت خود دارد) و این سیستم‌ها باید بتوانند در زمان تقریبی واقعی رونویسی کنند تا این مکالمات تا حد امکان شبیه به مکالمات انسانی به نظر برسند.

هم‌بنیان‌گذار و مدیرعامل ژان-لویی کگینر به TechCrunch گفت: "ما متوجه شدیم که در کل بازار، زمان واقعی از نظر کیفیت چندان خوب نیست. و مردم یک کاربرد عجیب داشته‌اند. آن‌ها پردازش زمان واقعی می‌کردند، سپس صوت را گرفته و در دسته پردازش می‌کردند. ما تعجب کردیم: 'چرا این کار را انجام می‌دهید؟' آن‌ها به ما گفتند: 'کیفیت در پردازش زمان واقعی خوب نیست، بنابراین تجزیه و تحلیل را به صورت دسته‌ای انجام می‌دهیم.'"

گلادیا تصمیم گرفت با این مشکل مقابله کند و در حال حاضر می‌تواند یک گفتگو زنده را با تاخیری کمتر از ۳۰۰ میلی‌ثانیه رونویسی کند. شرکت ادعا می‌کند که پردازش زمان واقعی اکنون تقریباً به اندازه API رونویسی دسته‌ای غیرهمزمان به خوبی عمل می‌کند، اما بدون برخی تست‌های مناسب، قضاوت سخت است. همانطور که کگینر می‌گوید، این استارتاپ در پی "کیفیت دسته‌ای با قابلیت‌های زمان واقعی" است.

علاوه بر عوامل تماس هوش مصنوعی، می‌توانید تصور کنید که یک مرکز تماس از این قابلیت‌های زمان واقعی برای کمک به عوامل تماس در یافتن اطلاعات مرتبط استفاده کند. "API یکپارچه ما با همه استک‌های فناوری موجود و پروتکل‌ها از جمله SIP، VoIP، FreeSwitch و Asterisk سازگار است," هم‌بنیان‌گذار و مدیر فنی جاناتان سوتو در بیانیه‌ای گفت.

XAnge رهبری دور سرمایه‌گذاری سری A را بر عهده دارد. Illuminate Financial، XTX Ventures، Athletico Ventures، Gaingels، Mana Ventures، Motier Ventures، Roosh Ventures و Soma Capital نیز مشارکت کردند.

گلادیا معتقد است که ما در آستانه یک "لحظه ChatGPT" برای برنامه‌های صوتی قرار داریم. فناوری GPT سال‌ها است که وجود دارد، اما ChatGPT واقعاً LLMها را با واسط چت‌گونهٔ مصرف‌کننده شناساند.

وقتی اپل یا گوگل شروع به گنجاندن مدل‌های رونویسی در iOS یا Android کنند، مصرف‌کنندگان ارزش رونویسی خودکار را در برنامه‌هایی که استفاده می‌کنند درک خواهند کرد. توسعه‌دهندگان به احتمال زیاد سپس ویژگی‌های صوتی را در محصولات خود ادغام می‌کنند و در آنجاست که ارائه‌دهندگان API مانند گلادیا وارد عمل می‌شوند.

توسط
Tech Crunch
منبع
Tech Crunch
نمایش بیشتر

اخبار مرتبط

بازگشت به بالا