تکنولوژی

پلی‌ای‌آی صداها را به فرمان کلون می‌کند

پلی‌ای‌آی، توسعه‌یافته توسط حمد سید و محمود فلفل، ابزاری برای تبدیل متن به گفتار است که به کاربران اجازه می‌دهد صداهای واقعی انسانی را بدون نیاز به مدل‌سازی خاص بسازند. این شرکت اکنون ابزارهایی برای خودکارسازی وظایف مانند پاسخ به تماس‌های مشتریان ارائه می‌دهد. پلی‌نوت نیز یکی از تجربیات جالب پلی‌ای‌آی است که فایل‌ها را به پادکست‌ها و داستان‌های کودکانه تبدیل می‌کند. با این حال، برخی نگرانی‌ها درباره امنیت و اخلاقی بودن استفاده از فناوری این شرکت وجود دارد، به ویژه در زمینه کلون‌کردن صدا.

در سال ۲۰۱۶، حمد سید و محمود فلفل، یک مهندس سابق واتس‌اپ، فکر کردند جالب خواهد بود که یک افزونه کروم برای تبدیل متن به گفتار برای مقالات مدیوم بسازند. این افزونه که می‌تواند هر داستان مدیوم را با صدای بلند بخواند، در محصول هانت معرفی شد. یک سال بعد، این افزونه به یک کسب‌وکار کامل تبدیل شد.

سید به تک‌کرانچ گفت: «ما فرصت بزرگ‌تری را در کمک به افراد و سازمان‌ها برای ایجاد محتوای صوتی واقعی برای برنامه‌هایشان دیدیم»، «بدون نیاز به ساخته شدن مدل خاصی، آن‌ها می‌توانند تجربه‌های سخن گفتن با کیفیت انسانی را سریع‌تر از همیشه پیاده‌سازی کنند.»

شرکت سید و فلفل، پلی‌ای‌آی (سابقا پلی‌اچ‌تی)، خود را به عنوان "رابط صوتی هوش مصنوعی" معرفی می‌کند. مشتریان می‌توانند از بین تعداد زیادی صدای از پیش تعریف‌شده انتخاب کنند یا یک صدا را کلون کنند و از API پلی‌ای‌آی برای یکپارچه‌سازی متن به گفتار در برنامه‌هایشان استفاده کنند.

دکمه‌ها به کاربران اجازه می‌دهند تنظیمات آهنگ، شتاب، و تن صدای صداها را تطبیق دهند.

پلی‌ای‌آی همچنین یک "زمین بازی" ارائه می‌دهد که کاربران می‌توانند فایلی را بارگذاری کنند تا نسخه‌ای برای خواندن با صدای بلند تولید کنند و یک پنل برای ایجاد روایات صوتی و دوبله‌های صیقلی‌تر.

یکی از تجربیات جالب پلی‌ای‌آی، پلی‌نوت است که PDFها، ویدئوها، عکس‌ها، آهنگ‌ها و فایل‌های دیگر را به برنامه‌های پادکست‌گونه، خلاصه‌خوانی‌ها، مناظره‌های یک ‌به ‌یک و حتی داستان‌های کودکان تبدیل می‌کند. مانند NotebookLM گوگل , PlayNote یک اسکریپت از یک فایل آپلود شده یا URL تولید می‌کند و آن را به مجموعه‌ایی از مدل‌های هوش مصنوعی می‌فرستد که در کنار هم محصول نهایی را ارائه می‌دهند.

من آن را امتحان کردم، و نتایج بد نبودند. تنظیمات "پادکست" پلی‌نوت کلیپی تولید می‌کند که از نظر کیفیت تقریبا برابر با NotebookLM است، و توانایی این ابزار در به‌کارگیری عکس‌ها و ویدئوها تجربیات فوق‌العاده‌ای ایجاد می‌کند.

با این وجود، ابزار، مانند همه ابزارهای هوش مصنوعی، گاه به گاه سازه‌های عجیب و توهمات تولید می‌کند.

مدل PlayDialog پلی‌ای‌آی می‌تواند از "زمینه و سابقه" یک گفت‌وگو استفاده کرده و گفتاری تولید کند که جریان مکالمه را منعکس کند. سید گفت: "با استفاده از زمینه تاریخی مکالمه برای کنترل لحن، احساسات، و زمان‌بندی، PlayDialog مکالمه‌ای با ارائه طبیعی و تن مناسب ارائه می‌دهد."

پلی‌ای‌آی، که رقابتی نزدیک با ElevenLabs دارد، به دلیل رویکرد آزادانه‌اش به ایمنی، در گذشته مورد انتقاد قرار گرفته است. ابزار کلون کردن صدای این شرکت از کاربران می‌خواهد که علامت بزنند که "تمام حقوق یا رضایت لازم را دارند" ولی مکانیزم اجرایی وجود ندارد.

توسط
Tech Crunch
منبع
Tech Crunch
نمایش بیشتر

اخبار مرتبط

بازگشت به بالا