کارتزیا ادعا می‌کند که هوش مصنوعی‌اش به اندازه‌ای کارآمد است که تقریباً در هر جایی اجرا شود

هزینه‌های توسعه و اجرای هوش مصنوعی به طور فزاینده‌ای افزایش یافته است. هزینه‌های عملیات هوش مصنوعی OpenAI ممکن است امسال به ۷ میلیارد دلار برسد، در حالی که مدیرعامل Anthropic اخیراً نشان داده است که مدل‌های با هزینه بیش از ۱۰ میلیارد دلار ممکن است به زودی عرضه شوند.

بنابراین، جستجوی راه‌هایی برای ارزان‌تر کردن هوش مصنوعی آغاز شده است. برخی محققان بر تکنیک‌هایی برای بهینه‌سازی معماری‌های مدل موجود تمرکز کرده‌اند، در حالی‌که دیگران به دنبال توسعه معماری‌های جدیدی هستند که معتقدند شانس بهتری برای توسعه پذیری اقتصادی دارند.

کاران گویل در دسته دوم قرار دارد. در استارت‌آپی که به تأسیس آن کمک کرد، کارتزیا، گویل بر روی آنچه که او مدل‌های فضای حالت (SSMs) می‌نامد کار می‌کند، یک معماری جدید و بسیار کارآمد مدل که می‌تواند حجم زیادی از داده‌ها - متن، تصاویر و غیره - را همزمان پردازش کند.

«ما بر این باوریم که معماری‌های جدید مدل ضروری است برای ساخت مدل‌های هوش مصنوعی واقعاً مفید،» گویل به TechCrunch گفت. «صنعت هوش مصنوعی یک فضای رقابتی است، هم در حوزه تجاری و هم منبع باز، و ساخت بهترین مدل برای موفقیت حیاتی است.»

ریشه‌های آکادمیک

کمی قبل از پیوستن به کارتزیا، گویل دانشجوی دکترای آزمایشگاه هوش مصنوعی استنفورد بود و تحت نظر کریستوفر رِه، دانشمند رایانه، و دیگران کار می‌کرد. در استنفورد، گویل با آلبرت گو، همکار دکترای خود در آزمایشگاه، ملاقات کرد و دو نفر آنچه که بعداً مدل‌های SSM می‌شدند را ترسیم کردند.

گویل سرانجام در Snorkel AI استخدام شد و سپس به Salesforce پیوست، در حالی‌که گو استاد یاریار در کارنگی ملون شد. اما گو و گویل به مطالعه مدل‌های SSM ادامه دادند و چندین مقاله تحقیقاتی محوری درباره معماری منتشر کردند.

در سال 2023، گو و گویل - به همراه دو نفر از همکاران سابق خود در استنفورد، آرجون دسای و براندون یانگ - تصمیم گرفتند نیروهای خود را برای راه‌اندازی کارتزیا تجاری‌سازی تحقیق خود جمع کنند.

کارتزیا، که تیم مؤسس آن همچنین شامل رِه می‌شود، بسیاری از مشتقات Mamba، شاید محبوب‌ترین SSM امروز، را ایجاد کرده است. گو و پروفسور پرینستون تری دائو مبدأ Mamba را به عنوان یک پروژه تحقیقاتی باز در دسامبر گذشته راه‌اندازی کردند و به اصلاح آن از طریق انتشار‌های بعدی ادامه می‌دهند.

کارتزیا بر اساس مَمبا فعالیت می‌کند و علاوه بر آن خود مدل‌های SSM خود را آموزش داده است. مانند همه SSM‌ها، کارتزیا به هوش مصنوعی چیزی چون حافظه کاری می‌دهد و مدل‌ها را سریع‌تر، و به طور بالقوه کارآمدتر، در نحوه استفاده از قدرت محاسبات می‌کند.

مدل‌های SSM در مقابل ترانسفورمرها

اکثر برنامه‌های هوش مصنوعی امروز، از ChatGPT تا Sora، با مدل‌هایی با معماری ترانسفورمر کار می‌کنند. با پردازش یک ترانسفورمر داده، مواردی به نام «حالت پنهان» اضافه می‌کند تا آنچه که پردازش شده را «به یاد بیاورد». برای مثال، اگر مدل از طریق یک کتاب کار کند، مقادیر حالت پنهان ممکن است نمایش‌هایی از کلمات در کتاب باشند.

حالت پنهان بخشی از دلیل قدرت ترانسفورمرها است. اما همچنین دلیل ناکارایی آنها است. برای «گفتن» حتی یک کلمه درباره کتابی که یک ترانسفورمر به تازگی خوانده، مدل باید از طریق کل حالت پنهان خود اسکن کند - کاری به اندازه دوباره خواندن کل کتاب.

در مقابل، SSM‌ها هر نقطه داده قبلی را به نوعی خلاصه از تمام آنچه که قبل از آن دیده شده فشرده می‌کنند. با ورود داده‌های جدید، «حالت» مدل به‌روزرسانی می‌شود و SSM اغلب داده‌های قبلی را کنار می‌گذارد.

نتیجه؟ SSM‌ها می‌توانند با حجم‌های بزرگی از داده کار کنند و در بعضی از کارهای تولید داده بهتر از ترانسفورمرها عمل کنند. با توجه به افزایش هزینه‌های استنتاج، این پیشنهاد جذابی است.

نگرانی‌های اخلاقی

کارتزیا مانند یک آزمایشگاه پژوهشی اجتماعی عمل می‌کند و مدل‌های SSM را در همکاری با سازمان‌های خارجی و همچنین منابع داخلی توسعه می‌دهد. سونیک، جدیدترین پروژه شرکت، SSM‌ای است که می‌تواند صدای یک فرد را شبیه‌سازی کند یا صدای جدیدی ایجاد کند و لحن و آهنگ را در ضبط تنظیم کند.

گویل ادعا می‌کند که سونیک که از طریق یک API و داشبورد وب در دسترس است، سریع‌ترین مدل در کلاس خود است. «سونیک یک نمایش است از اینکه چگونه SSM‌ها در داده‌های با زمینه طولانی، مانند صدا، برتری دارند و در عین حال بهترین عملکرد در پایداری و دقت را دارند.»

در حالی که کارتزیا توانسته محصولات را به سرعت عرضه کند، در بسیاری از مشکلات اخلاقی مشابه که دیگر سازندگان مدل‌های هوش مصنوعی را گرفتار کرده، گرفتار شده است.

کارتزیا مدل‌های SSM خود را بر روی مجموعه داده The Pile ، که شامل کتاب‌های دارای حق چاپ بدون مجوز است، آموزش داده است. بسیاری از شرکت‌های هوش مصنوعی استدلال می‌کنند که دکترین استفاده منصفانه آنها را از ادعاهای تخلف محافظت می‌کند. اما این از دست نویسندگانی که Meta و Microsoft و دیگران را به خاطر استفاده از The Pile برای آموزش مدل‌ها شکایت کرده‌اند، جلوگیری نکرده است.

و کارتزیا موارد حفاظتی ظاهری برای همزاد صدای Sonic ندارد. چند هفته پیش، من توانستم یک همزاد صدای کامالا هریس معاون رئیس‌جمهور سابق را با استفاده از سخنرانی‌های انتخاباتی ایجاد کنم. ابزار کارتزیا فقط نیاز دارد که شما یک چک باکس را بزنید تا نشان دهید که با ToS startup مطابقت دارید.

کارتزیا لزوماً در این زمینه از دیگر ابزارهای همزاد صدای موجود بدتر نیست. با این حال، با گزارش‌هایی از کلاهبرداری‌های همزاد صدا ضربه زدن به بانک‌ها ، باید دقت بیشتری داشته باشد.

گویل نمی‌گفت که آیا کارتزیا همچنان از داده‌های The Pile برای آموزش مدل استفاده می‌کند یا نه. اما به مسائل تطبیق اشاره کرده است و به TechCrunch گفت که کارتزیا سیستم‌های «خودکار و مرور دستی» دارد و «در حال کار بر روی سیستم‌های تأیید و واترمارک صوتی است.»

گویل گفت: «ما تیم‌های اختصاص یافته‌ای داریم که برای جنبه‌هایی مانند عملکرد فنی، سوء استفاده و تعصب آزمون می‌کنند.» «ما همچنین مشارکت‌هایی با ممیزان خارجی برقرار می‌کنیم تا اطلاعات اضافی مستقلی از ایمنی و قابلیت اطمینان مدل‌های ما ارائه دهند... این روندی است که نیاز به بهبود مستمر دارد.»

کسب و کار نوپا

گویل می‌گوید که «صدها» مشتری برای دسترسی به API سونیک، خط اصلی درآمد کارتزیا، پول می‌پردازند، از جمله برنامه تماس خودکار Goodcall. API کارتزیا برای تا 100,000 کاراکتر، به صورت رایگان است و طرح گران‌ترین آن با 299 دلار در ماه برای 8 میلیون کاراکتر تمام می‌شود. (کارتزیا همچنین یک لایه سازمانی با پشتیبانی اختصاصی و محدودیت‌های سفارشی ارائه می‌دهد.)

به طور پیش فرض، کارتزیا از داده‌های مشتری برای آموزش مدل‌های خود استفاده می‌کند - یک سیاست غیرمعمول نیست، اما ممکن است با کاربران حساس به حریم خصوصی سازگار نباشد. گویل اشاره می‌کند که کاربران می‌توانند اگر خواستند از این گزینه خارج شوند و کارتزیا سیاست‌های نگهداری سفارشی برای سازمان‌های بزرگتر ارائه می‌دهد.

عملکردهای داده کارتزیا ظاهراً به کسب و کار آسیب نمی‌زنند، لااقل در حالی‌که کارتزیا دارای یک مزیت فنی است. بابی سومرز، مدیر عامل شرکت Goodcall می‌گوید که او Sonic را انتخاب کرد زیرا تنها مدل تولید صدا با کمترین زمان تأخیر زیر 90 میلی‌ثانیه بود.

«[این] عملکرد بعدی بهترین گزینه خود را با ضریب چهار بهبود داد،

توسط
Tech Crunch
منبع
Tech Crunch
Exit mobile version