استفاده از سختافزار سفارشی و ارکستراسیون پیشرفته برای استنتاج سریع هوش مصنوعی توسط Runware
گاهی اوقات، یک دمو همه چیزهایی است که برای درک یک محصول نیاز دارید. و این دقیقا همان چیزی است که Runware به شما نشان میدهد. اگر به وبسایت Runware بروید، یک درخواست وارد کنید و دکمه ورود را فشار دهید تا تصویر تولید شود، خواهید دید که چقدر سریع Runware تصویر را برای شما تولید میکند - کمتر از یک ثانیه زمان میبرد.
Runware یک تازهوارد در زمینه استنتاج هوش مصنوعی یا هوش مصنوعی مولدی است. این شرکت در حال ساخت سرورهای خود و بهینهسازی لایه نرمافزاری آنها است تا موانع را برطرف کرده و سرعت استنتاج مدلهای تولید تصویر را بهبود بخشد. این استارتاپ تاکنون ۳ میلیون دلار سرمایه از Speedrun Andreessen Horowitz، Halo II LakeStar و Lunar Ventures جمعآوری کرده است.
این شرکت نمیخواهد دوباره چرخ را اختراع کند. فقط میخواهد آن را سریعتر بچرخاند. در پشت صحنه، Runware سرورهای خود را با بیشترین تعداد GPU ممکن روی یک مادربورد تولید میکند. همچنین سیستم خنککننده سفارشی خود را دارد و دیتا سنترهای خود را مدیریت میکند.
در اجرای مدلهای هوش مصنوعی بر روی سرورهای خود، Runware لایه ارکستراسیون را با بهینهسازیهای BIOS و سیستمعامل بهینه کرده است تا زمان شروع سرد را بهبود بخشد. همچنین الگوریتمهای خود را برای تخصیص وظایف استنتاج توسعه داده است.
دمو به خودی خود قابلتحسین است. اکنون، شرکت میخواهد تمام این کارهای تحقیق و توسعه را به یک کسبوکار تبدیل کند.
برخلاف بسیاری از شرکتهای میزبانی GPU، Runware قصد ندارد GPUهای خود را بر اساس زمان استفاده اجاره دهد. در عوض، معتقد است که شرکتها باید به افزایش سرعت کارها تشویق شوند. به همین دلیل Runware یک API تولید تصویر با ساختار هزینه سنتی بر اساس تعداد درخواستهای API ارائه میدهد. این بر اساس مدلهای هوش مصنوعی محبوب از Flux و Stable Diffusion است.
“اگر به Together AI، Replicate، Hugging Face نگاه کنید، همه آنها محاسبات را بر اساس زمان GPU میفروشند”، بنیانگذار و مدیر عامل Flaviu Radulescu به TechCrunch گفت. “اگر مدت زمان لازم برای ما جهت تولید یک تصویر را با آنها مقایسه کنید. و سپس قیمتها را مقایسه کنید، خواهید دید که ما بسیار ارزانتر و سریعتر هستیم.”
“برای آنها غیرممکن خواهد بود که این عملکرد را مطابقت دهند”، اضافه کرد. “بهویژه در یک ارائهدهنده ابر، باید در یک محیط مجازی اجرا کنید که تاخیرهای اضافه ایجاد میکند.”
Runware با هدف شامل کردن کل خط لوله استنتاج و بهینهسازی سختافزار و نرمافزار، امیدوار است که بتواند در آینده از GPUهای چندین فروشنده استفاده کند. این یک تلاش مهم برای چندین استارتاپ بوده است، زیرا Nvidia به طور واضح رهبر بازار GPU است، به این معنی که GPUهای Nvidia معمولاً بسیار گران هستند.
“در حال حاضر، ما فقط از GPUهای Nvidia استفاده میکنیم. اما این باید یک انتزاع از لایه نرمافزاری باشد”، Radulescu گفت. “ما میتوانیم یک مدل را از حافظه GPU وارد و خارج کنیم بسیار، بسیار سریع، که به ما اجازه میدهد چندین مشتری را بر روی همان GPU قرار دهیم.
“بنابراین ما مانند رقبایمان نیستیم. آنها فقط یک مدل را در GPU بارگذاری میکنند و سپس GPU یک نوع کار مشخص انجام میدهد. در مورد ما، ما این راهحل نرمافزاری را توسعه دادهایم که به ما اجازه میدهد مدل را در حافظه GPU در حین استنتاج تغییر دهیم.”
اگر AMD و دیگر فروشندگان GPU بتوانند لایههای سازگاری ایجاد کنند که با بارهای کاری معمولی هوش مصنوعی کار کنند، Runware در موقعیت خوبی قرار دارد که یک ابر هیبریدی بسازد که به GPUهای چندین فروشنده متکی باشد. و این قطعاً به آن کمک خواهد کرد اگر بخواهد ارزانتر از رقبا در استنتاج هوش مصنوعی باقی بماند.