کارتزیا ادعا میکند که هوش مصنوعیاش به اندازهای کارآمد است که تقریباً در هر جایی اجرا شود
هزینههای توسعه و اجرای هوش مصنوعی به طور فزایندهای افزایش یافته است. هزینههای عملیات هوش مصنوعی OpenAI ممکن است امسال به ۷ میلیارد دلار برسد، در حالی که مدیرعامل Anthropic اخیراً نشان داده است که مدلهای با هزینه بیش از ۱۰ میلیارد دلار ممکن است به زودی عرضه شوند.
بنابراین، جستجوی راههایی برای ارزانتر کردن هوش مصنوعی آغاز شده است. برخی محققان بر تکنیکهایی برای بهینهسازی معماریهای مدل موجود تمرکز کردهاند، در حالیکه دیگران به دنبال توسعه معماریهای جدیدی هستند که معتقدند شانس بهتری برای توسعه پذیری اقتصادی دارند.
کاران گویل در دسته دوم قرار دارد. در استارتآپی که به تأسیس آن کمک کرد، کارتزیا، گویل بر روی آنچه که او مدلهای فضای حالت (SSMs) مینامد کار میکند، یک معماری جدید و بسیار کارآمد مدل که میتواند حجم زیادی از دادهها - متن، تصاویر و غیره - را همزمان پردازش کند.
«ما بر این باوریم که معماریهای جدید مدل ضروری است برای ساخت مدلهای هوش مصنوعی واقعاً مفید،» گویل به TechCrunch گفت. «صنعت هوش مصنوعی یک فضای رقابتی است، هم در حوزه تجاری و هم منبع باز، و ساخت بهترین مدل برای موفقیت حیاتی است.»
ریشههای آکادمیک
کمی قبل از پیوستن به کارتزیا، گویل دانشجوی دکترای آزمایشگاه هوش مصنوعی استنفورد بود و تحت نظر کریستوفر رِه، دانشمند رایانه، و دیگران کار میکرد. در استنفورد، گویل با آلبرت گو، همکار دکترای خود در آزمایشگاه، ملاقات کرد و دو نفر آنچه که بعداً مدلهای SSM میشدند را ترسیم کردند.
گویل سرانجام در Snorkel AI استخدام شد و سپس به Salesforce پیوست، در حالیکه گو استاد یاریار در کارنگی ملون شد. اما گو و گویل به مطالعه مدلهای SSM ادامه دادند و چندین مقاله تحقیقاتی محوری درباره معماری منتشر کردند.
در سال 2023، گو و گویل - به همراه دو نفر از همکاران سابق خود در استنفورد، آرجون دسای و براندون یانگ - تصمیم گرفتند نیروهای خود را برای راهاندازی کارتزیا تجاریسازی تحقیق خود جمع کنند.
کارتزیا، که تیم مؤسس آن همچنین شامل رِه میشود، بسیاری از مشتقات Mamba، شاید محبوبترین SSM امروز، را ایجاد کرده است. گو و پروفسور پرینستون تری دائو مبدأ Mamba را به عنوان یک پروژه تحقیقاتی باز در دسامبر گذشته راهاندازی کردند و به اصلاح آن از طریق انتشارهای بعدی ادامه میدهند.
کارتزیا بر اساس مَمبا فعالیت میکند و علاوه بر آن خود مدلهای SSM خود را آموزش داده است. مانند همه SSMها، کارتزیا به هوش مصنوعی چیزی چون حافظه کاری میدهد و مدلها را سریعتر، و به طور بالقوه کارآمدتر، در نحوه استفاده از قدرت محاسبات میکند.
مدلهای SSM در مقابل ترانسفورمرها
اکثر برنامههای هوش مصنوعی امروز، از ChatGPT تا Sora، با مدلهایی با معماری ترانسفورمر کار میکنند. با پردازش یک ترانسفورمر داده، مواردی به نام «حالت پنهان» اضافه میکند تا آنچه که پردازش شده را «به یاد بیاورد». برای مثال، اگر مدل از طریق یک کتاب کار کند، مقادیر حالت پنهان ممکن است نمایشهایی از کلمات در کتاب باشند.
حالت پنهان بخشی از دلیل قدرت ترانسفورمرها است. اما همچنین دلیل ناکارایی آنها است. برای «گفتن» حتی یک کلمه درباره کتابی که یک ترانسفورمر به تازگی خوانده، مدل باید از طریق کل حالت پنهان خود اسکن کند - کاری به اندازه دوباره خواندن کل کتاب.
در مقابل، SSMها هر نقطه داده قبلی را به نوعی خلاصه از تمام آنچه که قبل از آن دیده شده فشرده میکنند. با ورود دادههای جدید، «حالت» مدل بهروزرسانی میشود و SSM اغلب دادههای قبلی را کنار میگذارد.
نتیجه؟ SSMها میتوانند با حجمهای بزرگی از داده کار کنند و در بعضی از کارهای تولید داده بهتر از ترانسفورمرها عمل کنند. با توجه به افزایش هزینههای استنتاج، این پیشنهاد جذابی است.
نگرانیهای اخلاقی
کارتزیا مانند یک آزمایشگاه پژوهشی اجتماعی عمل میکند و مدلهای SSM را در همکاری با سازمانهای خارجی و همچنین منابع داخلی توسعه میدهد. سونیک، جدیدترین پروژه شرکت، SSMای است که میتواند صدای یک فرد را شبیهسازی کند یا صدای جدیدی ایجاد کند و لحن و آهنگ را در ضبط تنظیم کند.
گویل ادعا میکند که سونیک که از طریق یک API و داشبورد وب در دسترس است، سریعترین مدل در کلاس خود است. «سونیک یک نمایش است از اینکه چگونه SSMها در دادههای با زمینه طولانی، مانند صدا، برتری دارند و در عین حال بهترین عملکرد در پایداری و دقت را دارند.»
در حالی که کارتزیا توانسته محصولات را به سرعت عرضه کند، در بسیاری از مشکلات اخلاقی مشابه که دیگر سازندگان مدلهای هوش مصنوعی را گرفتار کرده، گرفتار شده است.
کارتزیا مدلهای SSM خود را بر روی مجموعه داده The Pile ، که شامل کتابهای دارای حق چاپ بدون مجوز است، آموزش داده است. بسیاری از شرکتهای هوش مصنوعی استدلال میکنند که دکترین استفاده منصفانه آنها را از ادعاهای تخلف محافظت میکند. اما این از دست نویسندگانی که Meta و Microsoft و دیگران را به خاطر استفاده از The Pile برای آموزش مدلها شکایت کردهاند، جلوگیری نکرده است.
و کارتزیا موارد حفاظتی ظاهری برای همزاد صدای Sonic ندارد. چند هفته پیش، من توانستم یک همزاد صدای کامالا هریس معاون رئیسجمهور سابق را با استفاده از سخنرانیهای انتخاباتی ایجاد کنم. ابزار کارتزیا فقط نیاز دارد که شما یک چک باکس را بزنید تا نشان دهید که با ToS startup مطابقت دارید.
کارتزیا لزوماً در این زمینه از دیگر ابزارهای همزاد صدای موجود بدتر نیست. با این حال، با گزارشهایی از کلاهبرداریهای همزاد صدا ضربه زدن به بانکها ، باید دقت بیشتری داشته باشد.
گویل نمیگفت که آیا کارتزیا همچنان از دادههای The Pile برای آموزش مدل استفاده میکند یا نه. اما به مسائل تطبیق اشاره کرده است و به TechCrunch گفت که کارتزیا سیستمهای «خودکار و مرور دستی» دارد و «در حال کار بر روی سیستمهای تأیید و واترمارک صوتی است.»
گویل گفت: «ما تیمهای اختصاص یافتهای داریم که برای جنبههایی مانند عملکرد فنی، سوء استفاده و تعصب آزمون میکنند.» «ما همچنین مشارکتهایی با ممیزان خارجی برقرار میکنیم تا اطلاعات اضافی مستقلی از ایمنی و قابلیت اطمینان مدلهای ما ارائه دهند... این روندی است که نیاز به بهبود مستمر دارد.»
کسب و کار نوپا
گویل میگوید که «صدها» مشتری برای دسترسی به API سونیک، خط اصلی درآمد کارتزیا، پول میپردازند، از جمله برنامه تماس خودکار Goodcall. API کارتزیا برای تا 100,000 کاراکتر، به صورت رایگان است و طرح گرانترین آن با 299 دلار در ماه برای 8 میلیون کاراکتر تمام میشود. (کارتزیا همچنین یک لایه سازمانی با پشتیبانی اختصاصی و محدودیتهای سفارشی ارائه میدهد.)
به طور پیش فرض، کارتزیا از دادههای مشتری برای آموزش مدلهای خود استفاده میکند - یک سیاست غیرمعمول نیست، اما ممکن است با کاربران حساس به حریم خصوصی سازگار نباشد. گویل اشاره میکند که کاربران میتوانند اگر خواستند از این گزینه خارج شوند و کارتزیا سیاستهای نگهداری سفارشی برای سازمانهای بزرگتر ارائه میدهد.
عملکردهای داده کارتزیا ظاهراً به کسب و کار آسیب نمیزنند، لااقل در حالیکه کارتزیا دارای یک مزیت فنی است. بابی سومرز، مدیر عامل شرکت Goodcall میگوید که او Sonic را انتخاب کرد زیرا تنها مدل تولید صدا با کمترین زمان تأخیر زیر 90 میلیثانیه بود.
«[این] عملکرد بعدی بهترین گزینه خود را با ضریب چهار بهبود داد،