استفاده از سخت‌افزار سفارشی و ارکستراسیون پیشرفته برای استنتاج سریع هوش مصنوعی توسط Runware

گاهی اوقات، یک دمو همه چیزهایی است که برای درک یک محصول نیاز دارید. و این دقیقا همان چیزی است که Runware به شما نشان می‌دهد. اگر به وبسایت Runware بروید، یک درخواست وارد کنید و دکمه ورود را فشار دهید تا تصویر تولید شود، خواهید دید که چقدر سریع Runware تصویر را برای شما تولید می‌کند - کمتر از یک ثانیه زمان می‌برد.

Runware یک تازه‌وارد در زمینه استنتاج هوش مصنوعی یا هوش مصنوعی مولدی است. این شرکت در حال ساخت سرورهای خود و بهینه‌سازی لایه نرم‌افزاری آن‌ها است تا موانع را برطرف کرده و سرعت استنتاج مدل‌های تولید تصویر را بهبود بخشد. این استارتاپ تاکنون ۳ میلیون دلار سرمایه از Speedrun Andreessen Horowitz، Halo II LakeStar و Lunar Ventures جمع‌آوری کرده است.

این شرکت نمی‌خواهد دوباره چرخ را اختراع کند. فقط می‌خواهد آن را سریع‌تر بچرخاند. در پشت صحنه، Runware سرورهای خود را با بیشترین تعداد GPU ممکن روی یک مادربورد تولید می‌کند. همچنین سیستم خنک‌کننده سفارشی خود را دارد و دیتا سنترهای خود را مدیریت می‌کند.

در اجرای مدل‌های هوش مصنوعی بر روی سرورهای خود، Runware لایه ارکستراسیون را با بهینه‌سازی‌های BIOS و سیستم‌عامل بهینه کرده است تا زمان شروع سرد را بهبود بخشد. همچنین الگوریتم‌های خود را برای تخصیص وظایف استنتاج توسعه داده است.

دمو به خودی خود قابل‌تحسین است. اکنون، شرکت می‌خواهد تمام این کارهای تحقیق و توسعه را به یک کسب‌وکار تبدیل کند.

برخلاف بسیاری از شرکت‌های میزبانی GPU، Runware قصد ندارد GPU‌های خود را بر اساس زمان استفاده اجاره دهد. در عوض، معتقد است که شرکت‌ها باید به افزایش سرعت کارها تشویق شوند. به همین دلیل Runware یک API تولید تصویر با ساختار هزینه سنتی بر اساس تعداد درخواست‌های API ارائه می‌دهد. این بر اساس مدل‌های هوش مصنوعی محبوب از Flux و Stable Diffusion است.

“اگر به Together AI، Replicate، Hugging Face نگاه کنید، همه آن‌ها محاسبات را بر اساس زمان GPU می‌فروشند”، بنیانگذار و مدیر عامل Flaviu Radulescu به TechCrunch گفت. “اگر مدت زمان لازم برای ما جهت تولید یک تصویر را با آن‌ها مقایسه کنید. و سپس قیمت‌ها را مقایسه کنید، خواهید دید که ما بسیار ارزان‌تر و سریع‌تر هستیم.”

“برای آن‌ها غیرممکن خواهد بود که این عملکرد را مطابقت دهند”، اضافه کرد. “به‌ویژه در یک ارائه‌دهنده ابر، باید در یک محیط مجازی اجرا کنید که تاخیرهای اضافه ایجاد می‌کند.”

Runware با هدف شامل کردن کل خط لوله استنتاج و بهینه‌سازی سخت‌افزار و نرم‌افزار، امیدوار است که بتواند در آینده از GPU‌های چندین فروشنده استفاده کند. این یک تلاش مهم برای چندین استارتاپ بوده است، زیرا Nvidia به طور واضح رهبر بازار GPU است، به این معنی که GPU‌های Nvidia معمولاً بسیار گران هستند.

“در حال حاضر، ما فقط از GPU‌های Nvidia استفاده می‌کنیم. اما این باید یک انتزاع از لایه نرم‌افزاری باشد”، Radulescu گفت. “ما می‌توانیم یک مدل را از حافظه GPU وارد و خارج کنیم بسیار، بسیار سریع، که به ما اجازه می‌دهد چندین مشتری را بر روی همان GPU قرار دهیم.

“بنابراین ما مانند رقبایمان نیستیم. آن‌ها فقط یک مدل را در GPU بارگذاری می‌کنند و سپس GPU یک نوع کار مشخص انجام می‌دهد. در مورد ما، ما این راه‌حل نرم‌افزاری را توسعه داده‌ایم که به ما اجازه می‌دهد مدل را در حافظه GPU در حین استنتاج تغییر دهیم.”

اگر AMD و دیگر فروشندگان GPU بتوانند لایه‌های سازگاری ایجاد کنند که با بارهای کاری معمولی هوش مصنوعی کار کنند، Runware در موقعیت خوبی قرار دارد که یک ابر هیبریدی بسازد که به GPU‌های چندین فروشنده متکی باشد. و این قطعاً به آن کمک خواهد کرد اگر بخواهد ارزان‌تر از رقبا در استنتاج هوش مصنوعی باقی بماند.

توسط
Tech Crunch
منبع
Tech Crunch
Exit mobile version