پلیایآی صداها را به فرمان کلون میکند
در سال ۲۰۱۶، حمد سید و محمود فلفل، یک مهندس سابق واتساپ، فکر کردند جالب خواهد بود که یک افزونه کروم برای تبدیل متن به گفتار برای مقالات مدیوم بسازند. این افزونه که میتواند هر داستان مدیوم را با صدای بلند بخواند، در محصول هانت معرفی شد. یک سال بعد، این افزونه به یک کسبوکار کامل تبدیل شد.
سید به تککرانچ گفت: «ما فرصت بزرگتری را در کمک به افراد و سازمانها برای ایجاد محتوای صوتی واقعی برای برنامههایشان دیدیم»، «بدون نیاز به ساخته شدن مدل خاصی، آنها میتوانند تجربههای سخن گفتن با کیفیت انسانی را سریعتر از همیشه پیادهسازی کنند.»
شرکت سید و فلفل، پلیایآی (سابقا پلیاچتی)، خود را به عنوان "رابط صوتی هوش مصنوعی" معرفی میکند. مشتریان میتوانند از بین تعداد زیادی صدای از پیش تعریفشده انتخاب کنند یا یک صدا را کلون کنند و از API پلیایآی برای یکپارچهسازی متن به گفتار در برنامههایشان استفاده کنند.
دکمهها به کاربران اجازه میدهند تنظیمات آهنگ، شتاب، و تن صدای صداها را تطبیق دهند.
پلیایآی همچنین یک "زمین بازی" ارائه میدهد که کاربران میتوانند فایلی را بارگذاری کنند تا نسخهای برای خواندن با صدای بلند تولید کنند و یک پنل برای ایجاد روایات صوتی و دوبلههای صیقلیتر.
یکی از تجربیات جالب پلیایآی، پلینوت است که PDFها، ویدئوها، عکسها، آهنگها و فایلهای دیگر را به برنامههای پادکستگونه، خلاصهخوانیها، مناظرههای یک به یک و حتی داستانهای کودکان تبدیل میکند. مانند NotebookLM گوگل , PlayNote یک اسکریپت از یک فایل آپلود شده یا URL تولید میکند و آن را به مجموعهایی از مدلهای هوش مصنوعی میفرستد که در کنار هم محصول نهایی را ارائه میدهند.
من آن را امتحان کردم، و نتایج بد نبودند. تنظیمات "پادکست" پلینوت کلیپی تولید میکند که از نظر کیفیت تقریبا برابر با NotebookLM است، و توانایی این ابزار در بهکارگیری عکسها و ویدئوها تجربیات فوقالعادهای ایجاد میکند.
با این وجود، ابزار، مانند همه ابزارهای هوش مصنوعی، گاه به گاه سازههای عجیب و توهمات تولید میکند.
مدل PlayDialog پلیایآی میتواند از "زمینه و سابقه" یک گفتوگو استفاده کرده و گفتاری تولید کند که جریان مکالمه را منعکس کند. سید گفت: "با استفاده از زمینه تاریخی مکالمه برای کنترل لحن، احساسات، و زمانبندی، PlayDialog مکالمهای با ارائه طبیعی و تن مناسب ارائه میدهد."
پلیایآی، که رقابتی نزدیک با ElevenLabs دارد، به دلیل رویکرد آزادانهاش به ایمنی، در گذشته مورد انتقاد قرار گرفته است. ابزار کلون کردن صدای این شرکت از کاربران میخواهد که علامت بزنند که "تمام حقوق یا رضایت لازم را دارند" ولی مکانیزم اجرایی وجود ندارد.