خالق صدای ChatGPT میخواهد فناوری فیلم «او» را بدون دنیاهای ویرانگر بسازد
الکسیس کانیو قلباً به فیلم "او" فکر میکند. در چند سال اخیر، او به تلاش برای تبدیل فناوری صدای داستانی این فیلم، سامانتا، به واقعیت، مشغول بوده است.
کانیو حتی از تصویر شخصیت واکین فینیکس در فیلم به عنوان بنر توییتر خود استفاده میکند.
با حالت پیشرفته صدا در ChatGPT، پروژهای که کانیو پس از کار در Meta در OpenAI شروع کرد، او به نوعی موفق شد. سیستم هوش مصنوعی به طور بومی، گفتار را پردازش و پاسخ میدهد، بسیار شبیه به انسان.
در حال حاضر او در حال راهاندازی استارتاپ جدیدی به نام WaveForms AI است که تلاش دارد چیز بهتری بسازد.
کانیو در یک مصاحبه به TechCrunch گفت که او مدت زیادی درباره نحوه اجتناب از ویرانشهر موجود در آن فیلم فکر میکند. فیلم "او" داستانی علمی تخیلی درباره دنیایی است که در آن مردم به جای افراد دیگر با سیستمهای هوش مصنوعی روابط صمیمانه برقرار میکنند.
"فیلم یک ویرانشهر است، درست است؟ این آیندهای نیست که ما میخواهیم"، گفت کانیو. " ما میخواهیم این فناوری را – که اکنون وجود دارد و وجود خواهد داشت – برای خوبی بیاوریم. ما میخواهیم دقیقاً برعکس کاری را انجام دهیم که شرکت موجود در آن فیلم انجام میدهد."
ساختن فناوری، منهای ویرانشهری که با آن میآید، به نظر یک تضاد است. اما کانیو قصد دارد آن را بسازد و متقاعد شده است که استارتاپ جدید هوش مصنوعی او به مردم کمک میکند که با گوشهایشان «دیگرگی عمومی» (AGI) را حس کنند.
روز دوشنبه، کانیو WaveForms AI را راهاندازی کرد، یک شرکت نوپای جدید لام مدلهای زبان که مدلهای بنیادین خود را آموزش میدهد. این شرکت قصد دارد محصولات صوتی AI در سال 2025 عرضه کند که با پیشنهادات OpenAI و گوگل رقابت کند. استارتاپ اعلام کرد که $40 میلیون سرمایه در مرحله اولیه جمع آوری کرده است، به رهبری Andreessen Horowitz.
کانیو میگوید مارک آندرسن – که قبلاً نوشت که هوش مصنوعی باید بخشی از همه جنبههای زندگی انسانی باشد – به طور شخصی به تلاش او علاقهمند شده است.
شایان ذکر است که علاقه شدید کانیو به فیلم "او" ممکن است در یک نقطه OpenAI را دچار مشکل کرده باشد. اسکارلت یوهانسون تهدید قانونی به استارتاپ سم آلتمان در اوایل این سال ارسال کرد ، که در نهایت OpenAI را مجبور کرد یکی از صداهای ChatGPT را که به شدت به کاراکتر او در فیلم شباهت داشت، حذف کند. OpenAI انکار کرد که هرگز تلاش کرده باشد صدای او را تقلید کند.
اما غیرقابلانکار است که چقدر این فیلم بر کانیو تأثیر گذاشته است. فیلم "او" به وضوح علمی تخیلی بود وقتی که در سال 2013 منتشر شد – در آن زمان، Siri اپل تازه و بسیار محدود بود. اما امروز، فناوری ترسناکاً قابل دسترس به نظر میرسد.
پلتفرمهای همراهی AI مانند Character.AI به میلیونها کاربر در هفته میرسند که فقط میخواهند با چتباتهای آنها صحبت کنند. این بخش به عنوان یک کاربرد محبوب برای هوش مصنوعی مولد ظهور کرده است — علیرغم نتایج گاهی اوقات ناراحتکننده و ترسناک . میتوانید تصور کنید چگونه کسی که تمام روز با یک چتبات تایپ میکند، عاشق گفتگو با آن خواهد بود، به ویژه با استفاده از فناوریهایی همچون حالت پیشرفته صدا در ChatGPT که قانعکننده هستند.
مدیر عامل WaveForms AI به فضای همراهی AI احتیاط میکند، و این هسته اصلی شرکت جدید او نیست. در حالی که او فکر میکند مردم محصولات WaveForms را به روشهای جدیدی استفاده خواهند کرد – مانند صحبت با یک AI برای 20 دقیقه در ماشین به منظور یادگیری چیزی – کانیو میگوید میخواهد شرکت «بیشتر افقی» باشد.
"[WaveForms AI] میتواند آن معلمی باشد که الهامبخش باشد، میدانید، شاید آن معلمی که در زندگی شما نخواهید داشت، حداقل در زندگی فیزیکی خودتان."
او باور دارد که در آینده صحبت با AI مولد راه معمولتری برای تعامل با انواع فناوریها خواهد بود. این ممکن است شامل صحبت با ماشین خودتان و صحبت با کامپیوتر شما باشد. WaveForms قصد دارد AI «احساسبرانگیز»ی را برای این تسهیل پیشنهاد دهد.
"من به آیندهای که در آن تعامل انسان با AI جایگزین تعامل انسان با انسان شود، باور ندارم." گفت کانیو. "اگر چیزی، این مکمل خواهد بود."
او میگوید AI میتواند از اشتباهات شبکههای اجتماعی یاد بگیرد. به عنوان مثال، او فکر میکند AI نباید برای «زمان صرف شده روی پلتفرم»، یک مقیاس معمولی موفقیت برای برنامههای اجتماعی که میتواند عادات ناسالم را ترویج دهد، بهینهسازی کند، مانند مرور بیپایان. به طور کلی، او میخواهد مطمئن شود AI WaveForms با بهترین منافع انسانها همسو باشد، این را «مهمترین کاری که میتوانید انجام دهید» مینامد.
کانیو میگوید نام OpenAI برای پروژه او، «حالت پیشرفته صدا»، واقعاً به تفاوتی که فناوری دارد در مقایسه با حالت معمولی صدای ChatGPT، عدالت نمیدهد.
حالت قدیمی تنها صدای شما را به متن ترجمه میکرد، آن را از طریق GPT-4 اجرا میکرد و سپس آن متن را به گفتار تبدیل میکرد. این یک راهحل تاحدودی به هم وصله شده بود. با این حال، با حالت پیشرفته صدا، کانیو میگوید که GPT-4o در واقع صوت صدای شما را به توکنها تقسیم میکند (ظاهراً، هر ثانیه صوت برابر با تقریباً سه توکن است) و آن توکنها را مستقیماً از طریق مدل تغییر شکل دهنده صوتی خاص اجرا میکند. این، او توضیح میدهد، چیزی است که به حالت پیشرفته صدا امکان میدهد تا اینقدر زمان تاخیر کم داشته باشد.
الادعای زیادی وقتی در مورد مدلهای صوتی AI صحبت میشود، این است که آنها به ظاهر میتوانند «احساسات را درک کنند». مثل مدلهای زبانی متنی که براساس الگوهای یافت شده در انبوهی از سندهای متنی هستند، مدلهای صوتی نیز همین کار را با کلیپهای صوتی انسانی انجام میدهند. انسانها این کلیپها را به عنوان «غمگین» یا «هیجانزده» علامتگذاری میکنند تا مدلهای AI الگوهای مشابه صوتی را وقتی که شما آن را میگویید، تشخیص دهند و حتی با نفسهای احساسی خود پاسخ دهند. بنابراین کمتر این است که آنها «احساسات را درک میکنند» و بیشتر این است که آنها بهطور نظاممند ویژگیهای صوتی را که انسانها با آن احساسات مرتبط میکنند، تشخیص میدهند.
ساختن AI بیشتر شخصیتر، نه هوشمندتر
کانیو شرط بندی میکند که هوش مصنوعی امروزی به صورت مولد نیازی به هوشمندتر شدن به شدت نسبت به GPT-4o ندارد تا محصولات بهتری ایجاد کند. به جای بهبود هوش زیربنای این مدلها، مانند کاری که OpenAI با o1 میکند، WaveForms به سادگی در تلاش است تا AI را بهتر برای صحبت کردن کند.
"بازاری از مردم [که از AI مولد استفاده میکنند] وجود خواهد داشت که صرفا تعاملی را که برایشان لذتبخشترین باشد انتخاب خواهند کرد"، گفت کانیو.
به همین دلیل است که استارتاپ مطمئن است که میتواند مدلهای بنیادین خود را توسعه دهد – امیدوارانه، مدلهای کوچکتر که هزینه کمتری خواهند داشت و سریعتر اجرا خواهند شد. این شرطبندی بدی نیست با توجه به شواهد اخیر که قوانین مقیاسی قدیمی AI کمی آرامتر شدهاند.
کانیو میگوید همکار سابق او در OpenAI، ایلیا سوتسکوور، اغلب با او درباره تلاش برای «احساس کردن AGI» صحبت میکرد – به طور کلی، استفاده از یک حس شکمی برای ارزیابی آیا ما به هوش مصنوعی فوقالعاده هوشمند رسیدهایم یا خیر. مدیر عامل WaveForms قانع شده است که رسیدن به AGI بیشتر به شکل یک حس خواهد بود، نه رسیدن به یک نوع معیار، و مدلهای صوتی لام کلید آن حس خواهند بود.
" فکر میکنم توانایی خواهید داشت تا AGI را بیشتر حس کنید وقتی که میتوانید با آن صحبت کنید، وقتی که میتوانید AGI را بشنوند، وقتی که میتوانید به طور واقعی با خود مبدل صحبت کنید"، گفت کانیو، تکرار سخنانش به سوتسکوور بر سر شام.
اما همانطور که استارتاپها AI را بهتر برای صحبت کردن میکنند، آنها وظیفه دارند تا بفهمند چگونه مردم را از اعتیاد دور نگه دارند. با این حال، شریک کلی Andreessen Horowitz، مارتین کاسادو، که کمک کرد تا سرمایهگذاری در WaveForms را رهبری کند، میگوید اگر مردم بیشتر با AI صحبت کنند، ضرورتاً بد نیست.
"من میتوانم بروم و با یک شخص تصادفی در اینترنت صحبت کنم، و آن شخص میتواند مرا اذیت کند، آن شخص میتواند از من سوء استفاده کند... من میتوانم با یک بازی رایانهای صحبت کنم که به طور دلخواه خشن باشد، یا میتوانم با یک AI صحبت کنم"، گفت کاسادو در مصاحبهای با TechCrunch. " فکر میکنم این یک سوال مهم برای مطالعه است. من متعجب نخواهم شد اگر مشخص شود که [صحبت کردن با AI] در واقع ترجیح دادهشده است."
برخی شرکتها ممکن است ایجاد رابطه عاشقانه با AI به عنوان نشانهای از موفقیت تلقی کنند. اما از دیدگاه اجتماعی، همچنین میتوان آن را به عنوان نشانهای از شکست کامل دانست، بسیار شبیه به فیلم "او" که سعی داشت به تصویر بکشد. این همان تراز در مرکز WaveForms است که اکنون باید حرکت کند.