تکنولوژی

خالق صدای ChatGPT می‌خواهد فناوری فیلم «او» را بدون دنیاهای ویرانگر بسازد

الکسیس کانیو به شدت تحت تأثیر فیلم «او» است و برای ساختن فناوری صدای داستانی آن فیلم تلاش کرده است. با پروژه «حالت پیشرفته صدا» در OpenAI، کانیو موفق به توسعه سیستم هوشمندی شده که به انسان شباهت دارد. او اکنون در حال راه‌اندازی شرکت نوپای WaveForms AI است که در حال آموزش مدل‌های بنیادین صوتی است و به دنبال عرضه محصولات صوتی AI در سال 2025 می‌باشد. این شرکت $40 میلیون سرمایه جمع آوری کرده است. الکسیس کانیو به دنبال ساخت فناوری احساس‌برانگیز AI است که بتواند مشکلات اجتماعی مرتبط با فناوری‌هایی مانند شبکه‌های اجتماعی را حل کند.

الکسیس کانیو قلباً به فیلم "او" فکر می‌کند. در چند سال اخیر، او به تلاش برای تبدیل فناوری صدای داستانی این فیلم، سامانتا، به واقعیت، مشغول بوده است.

کانیو حتی از تصویر شخصیت واکین فینیکس در فیلم به عنوان بنر توییتر خود استفاده می‌کند.

بنر توییتر کانیو (اعتبار تصویر: X)

با حالت پیشرفته صدا در ChatGPT، پروژه‌ای که کانیو پس از کار در Meta در OpenAI شروع کرد، او به نوعی موفق شد. سیستم هوش مصنوعی به طور بومی، گفتار را پردازش و پاسخ می‌دهد، بسیار شبیه به انسان.

در حال حاضر او در حال راه‌اندازی استارتاپ جدیدی به نام WaveForms AI است که تلاش دارد چیز بهتری بسازد.

کانیو در یک مصاحبه به TechCrunch گفت که او مدت زیادی درباره نحوه اجتناب از ویران‌شهر موجود در آن فیلم فکر می‌کند. فیلم "او" داستانی علمی تخیلی درباره دنیایی است که در آن مردم به جای افراد دیگر با سیستم‌های هوش مصنوعی روابط صمیمانه برقرار می‌کنند.

"فیلم یک ویران‌شهر است، درست است؟ این آینده‌ای نیست که ما می‌خواهیم"، گفت کانیو. " ما می‌خواهیم این فناوری را – که اکنون وجود دارد و وجود خواهد داشت – برای خوبی بیاوریم. ما می‌خواهیم دقیقاً برعکس کاری را انجام دهیم که شرکت موجود در آن فیلم انجام می‌دهد."

ساختن فناوری، منهای ویران‌شهری که با آن می‌آید، به نظر یک تضاد است. اما کانیو قصد دارد آن را بسازد و متقاعد شده است که استارتاپ جدید هوش مصنوعی او به مردم کمک می‌کند که با گوش‌هایشان «دیگرگی عمومی» (AGI) را حس کنند.

روز دوشنبه، کانیو WaveForms AI را راه‌اندازی کرد، یک شرکت نوپای جدید لام مدل‌های زبان که مدل‌های بنیادین خود را آموزش می‌دهد. این شرکت قصد دارد محصولات صوتی AI در سال 2025 عرضه کند که با پیشنهادات OpenAI و گوگل رقابت کند. استارتاپ اعلام کرد که $40 میلیون سرمایه در مرحله اولیه جمع آوری کرده است، به رهبری Andreessen Horowitz.

کانیو می‌گوید مارک آندرسن – که قبلاً نوشت که هوش مصنوعی باید بخشی از همه جنبه‌های زندگی انسانی باشد – به طور شخصی به تلاش او علاقه‌مند شده است.

شایان ذکر است که علاقه شدید کانیو به فیلم "او" ممکن است در یک نقطه OpenAI را دچار مشکل کرده باشد. اسکارلت یوهانسون تهدید قانونی به استارتاپ سم آلتمان در اوایل این سال ارسال کرد ، که در نهایت OpenAI را مجبور کرد یکی از صداهای ChatGPT را که به شدت به کاراکتر او در فیلم شباهت داشت، حذف کند. OpenAI انکار کرد که هرگز تلاش کرده باشد صدای او را تقلید کند.

اما غیرقابل‌انکار است که چقدر این فیلم بر کانیو تأثیر گذاشته است. فیلم "او" به وضوح علمی تخیلی بود وقتی که در سال 2013 منتشر شد – در آن زمان، Siri اپل تازه و بسیار محدود بود. اما امروز، فناوری ترسناکاً قابل دسترس به نظر می‌رسد.

پلتفرم‌های همراهی AI مانند Character.AI به میلیون‌ها کاربر در هفته می‌رسند که فقط می‌خواهند با چت‌بات‌های آنها صحبت کنند. این بخش به عنوان یک کاربرد محبوب برای هوش مصنوعی مولد ظهور کرده است — علیرغم نتایج گاهی اوقات ناراحت‌کننده و ترسناک . می‌توانید تصور کنید چگونه کسی که تمام روز با یک چت‌بات تایپ می‌کند، عاشق گفتگو با آن خواهد بود، به ویژه با استفاده از فناوری‌هایی همچون حالت پیشرفته صدا در ChatGPT که قانع‌کننده هستند.

مدیر عامل WaveForms AI به فضای همراهی AI احتیاط می‌کند، و این هسته اصلی شرکت جدید او نیست. در حالی که او فکر می‌کند مردم محصولات WaveForms را به روش‌های جدیدی استفاده خواهند کرد – مانند صحبت با یک AI برای 20 دقیقه در ماشین به منظور یادگیری چیزی – کانیو می‌گوید می‌خواهد شرکت «بیشتر افقی» باشد.

"[WaveForms AI] می‌تواند آن معلمی باشد که الهام‌بخش باشد، می‌دانید، شاید آن معلمی که در زندگی شما نخواهید داشت، حداقل در زندگی فیزیکی خودتان."

او باور دارد که در آینده صحبت با AI مولد راه معمول‌تری برای تعامل با انواع فناوری‌ها خواهد بود. این ممکن است شامل صحبت با ماشین خودتان و صحبت با کامپیوتر شما باشد. WaveForms قصد دارد AI «احساس‌برانگیز»ی را برای این تسهیل پیشنهاد دهد.

"من به آینده‌ای که در آن تعامل انسان با AI جایگزین تعامل انسان با انسان شود، باور ندارم." گفت کانیو. "اگر چیزی، این مکمل خواهد بود."

او می‌گوید AI می‌تواند از اشتباهات شبکه‌های اجتماعی یاد بگیرد. به عنوان مثال، او فکر می‌کند AI نباید برای «زمان صرف شده روی پلتفرم»، یک مقیاس معمولی موفقیت برای برنامه‌های اجتماعی که می‌تواند عادات ناسالم را ترویج دهد، بهینه‌سازی کند، مانند مرور بی‌پایان. به طور کلی، او می‌خواهد مطمئن شود AI WaveForms با بهترین منافع انسان‌ها همسو باشد، این را «مهم‌ترین کاری که می‌توانید انجام دهید» می‌نامد.

کانیو می‌گوید نام OpenAI برای پروژه او، «حالت پیشرفته صدا»، واقعاً به تفاوتی که فناوری دارد در مقایسه با حالت معمولی صدای ChatGPT، عدالت نمی‌دهد.

حالت قدیمی تنها صدای شما را به متن ترجمه می‌کرد، آن را از طریق GPT-4 اجرا می‌کرد و سپس آن متن را به گفتار تبدیل می‌کرد. این یک راه‌حل تاحدودی به هم وصله شده بود. با این حال، با حالت پیشرفته صدا، کانیو می‌گوید که GPT-4o در واقع صوت صدای شما را به توکن‌ها تقسیم می‌کند (ظاهراً، هر ثانیه صوت برابر با تقریباً سه توکن است) و آن توکن‌ها را مستقیماً از طریق مدل تغییر شکل دهنده صوتی خاص اجرا می‌کند. این، او توضیح می‌دهد، چیزی است که به حالت پیشرفته صدا امکان می‌دهد تا اینقدر زمان تاخیر کم داشته باشد.

الادعای زیادی وقتی در مورد مدل‌های صوتی AI صحبت می‌شود، این است که آن‌ها به ظاهر می‌توانند «احساسات را درک کنند». مثل مدل‌های زبانی متنی که براساس الگوهای یافت شده در انبوهی از سندهای متنی هستند، مدل‌های صوتی نیز همین کار را با کلیپ‌های صوتی انسانی انجام می‌دهند. انسان‌ها این کلیپ‌ها را به عنوان «غمگین» یا «هیجان‌زده» علامت‌گذاری می‌کنند تا مدل‌های AI الگوهای مشابه صوتی را وقتی که شما آن را می‌گویید، تشخیص دهند و حتی با نفس‌های احساسی خود پاسخ دهند. بنابراین کمتر این است که آن‌ها «احساسات را درک می‌کنند» و بیشتر این است که آن‌ها به‌طور نظام‌مند ویژگی‌های صوتی را که انسان‌ها با آن احساسات مرتبط می‌کنند، تشخیص می‌دهند.

ساختن AI بیشتر شخصی‌تر، نه هوشمندتر

کانیو شرط بندی می‌کند که هوش مصنوعی امروزی به صورت مولد نیازی به هوشمندتر شدن به شدت نسبت به GPT-4o ندارد تا محصولات بهتری ایجاد کند. به جای بهبود هوش زیربنای این مدل‌ها، مانند کاری که OpenAI با o1 می‌کند، WaveForms به سادگی در تلاش است تا AI را بهتر برای صحبت کردن کند.

"بازاری از مردم [که از AI مولد استفاده می‌کنند] وجود خواهد داشت که صرفا تعاملی را که برایشان لذت‌بخش‌ترین باشد انتخاب خواهند کرد"، گفت کانیو.

به همین دلیل است که استارتاپ مطمئن است که می‌تواند مدل‌های بنیادین خود را توسعه دهد – امیدوارانه، مدل‌های کوچکتر که هزینه کمتری خواهند داشت و سریعتر اجرا خواهند شد. این شرط‌بندی بدی نیست با توجه به شواهد اخیر که قوانین مقیاسی قدیمی AI کمی آرام‌تر شده‌اند.

کانیو می‌گوید همکار سابق او در OpenAI، ایلیا سوتسکوور، اغلب با او درباره تلاش برای «احساس کردن AGI» صحبت می‌کرد – به طور کلی، استفاده از یک حس شکمی برای ارزیابی آیا ما به هوش مصنوعی فوق‌العاده هوشمند رسیده‌ایم یا خیر. مدیر عامل WaveForms قانع شده است که رسیدن به AGI بیشتر به شکل یک حس خواهد بود، نه رسیدن به یک نوع معیار، و مدل‌های صوتی لام کلید آن حس خواهند بود.

" فکر می‌کنم توانایی خواهید داشت تا AGI را بیشتر حس کنید وقتی که می‌توانید با آن صحبت کنید، وقتی که می‌توانید AGI را بشنوند، وقتی که می‌توانید به طور واقعی با خود مبدل صحبت کنید"، گفت کانیو، تکرار سخنانش به سوتسکوور بر سر شام.

اما همانطور که استارتاپ‌ها AI را بهتر برای صحبت کردن می‌کنند، آن‌ها وظیفه دارند تا بفهمند چگونه مردم را از اعتیاد دور نگه دارند. با این حال، شریک کلی Andreessen Horowitz، مارتین کاسادو، که کمک کرد تا سرمایه‌گذاری در WaveForms را رهبری کند، می‌گوید اگر مردم بیشتر با AI صحبت کنند، ضرورتاً بد نیست.

"من می‌توانم بروم و با یک شخص تصادفی در اینترنت صحبت کنم، و آن شخص می‌تواند مرا اذیت کند، آن شخص می‌تواند از من سوء استفاده کند... من می‌توانم با یک بازی رایانه‌ای صحبت کنم که به طور دلخواه خشن باشد، یا می‌توانم با یک AI صحبت کنم"، گفت کاسادو در مصاحبه‌ای با TechCrunch. " فکر می‌کنم این یک سوال مهم برای مطالعه است. من متعجب نخواهم شد اگر مشخص شود که [صحبت کردن با AI] در واقع ترجیح داده‌شده است."

برخی شرکت‌ها ممکن است ایجاد رابطه عاشقانه با AI به عنوان نشانه‌ای از موفقیت تلقی کنند. اما از دیدگاه اجتماعی، همچنین می‌توان آن را به عنوان نشانه‌ای از شکست کامل دانست، بسیار شبیه به فیلم "او" که سعی داشت به تصویر بکشد. این همان تراز در مرکز WaveForms است که اکنون باید حرکت کند.

توسط
Tech Crunch
منبع
Tech Crunch
نمایش بیشتر

اخبار مرتبط

بازگشت به بالا