تحقیقات نشان می‌دهد هزینه آموزش هوش مصنوعی DeepSeek نه ۶ میلیون دلار بلکه ۱.۳ میلیارد دلار است

در جدیدترین گزارش خود، SemiAnalysis، یک شرکت تحقیقاتی مستقل، به DeepSeek، یک بازیکن نوظهور در عرصه هوش مصنوعی پرداخته است.

SemiAnalysis به برخی از روایات رایج پیرامون هزینه‌های DeepSeek انتقاد می‌کند و آن‌ها را با فناوری‌های رقیب در بازار مقایسه می‌کند.

یکی از ادعاهای برجسته این است که هزینه آموزش DeepSeek V3 حدود ۶ میلیون دلار است.

با این حال، گزارش SemiAnalysis این رقم را بازگو می‌کند و می‌گوید که این رقم به چندین مورد مهم توجه نکرده است.

افسانه ۶ میلیون دلاری DeepSeek

این تخمین ۶ میلیون دلاری عمدتاً هزینه‌های پیش‌آموزش با GPU را در نظر می‌گیرد، اما به سرمایه‌گذاری‌های مهم در تحقیق و توسعه، زیرساخت و دیگر هزینه‌های اساسی که به شرکت تعلق می‌گیرد توجه نکرده است.

گزارش نشان می‌دهد که هزینه کل سرمایه‌گذاری سروری DeepSeek به ۱.۳ میلیارد دلار بالغ می‌شود.

بخش زیادی از این تعهد مالی برای اداره و نگهداری خوشه‌های گسترده GPU که ستون فقراتی قدرت محاسباتی آن است، هزینه می‌شود.

به گفته گزارش، DeepSeek به حدود ۵۰,۰۰۰ GPU Hopper دسترسی دارد که منجر به برخی تفکرات نادرست در صنعت شده است.

SemiAnalysis تصریح می‌کند که این به معنای داشتن ۵۰,۰۰۰ H100 نیست، همان‌طور که برخی پیش‌تر از این نتیجه گرفته بودند.

بر خلاف آن، موجودی GPU شامل مدلی متفاوت است که شامل H800، H100 و H20s ویژه کشور است که توسط NVIDIA در پاسخ به محدودیت‌های صادراتی ایالات متحده تولید شده‌اند.

این درک از موجودی سخت‌افزاری آن‌ها تصمیم‌گیری‌های استراتژیک در منبع‌یابی و کارایی عملیاتی DeepSeek را تقویت می‌کند.

یکی از جنبه‌های قابل توجه گزارش، بازتاب ساختار سازمانی DeepSeek است.

بر خلاف برخی از آزمایشگاه‌های بزرگ هوش مصنوعی، DeepSeek مراکز داده خود را اداره می‌کند و از مدل ساده شده‌ای استفاده می‌کند که به چابکی و کارایی آن کمک می‌کند.

همان‌طور که عرصه هوش مصنوعی به طور فزآینده رقابتی می‌شود، این توانایی سازگاری سریع به دارایی مهم تبدیل می‌شود.

بهتر شدن قابلیت‌های استداللی

از نظر عملکرد، تحلیل‌ها نشان می‌دهند که مدل R1 DeepSeek قابلیت‌های استدلالی مشابه OpenAI's o1 را دارد.

با این حال، پیش از این که DeepSeek در هر معیار عملکردی به عنوان یک رهبر بلامنازع شناخته شود، توقف می‌کند.

در حالی که استراتژی قیمت‌گذاری DeepSeek توجه و تحسین‌هایی را به خود جلب کرده است، یک نکته مهم وجود دارد: Google’s Gemini Flash 2.0 که از نظر قابلیت مشابه است، نشان می‌دهد که با دسترسی از طریق خدمات API حتی اقتصادی‌تر است.

این موقعیت DeepSeek را در یک مقاطع قرار می‌دهد که تعادل عملکرد و هزینه کلید موفقیت آینده آن است.

فناوری Multi-Head Latent Attention یک نوآوری پیشگامانه است که در گزارش بر آن تأکید شده است.

این رویکرد پیشرفته با کاهش چشمگیر استفاده از کلید-مقدار (KV) caching، هزینه پیش‌بینی را به میزان ۹۳.۳٪ کاهش می‌دهد و یک گام مهم به سوی راه‌حل‌های AI اقتصادی‌تر است.

کارشناسان پیشنهاد می‌کنند که نوآوری‌های به وجود آمده از DeepSeek به سرعت توسط آزمایشگاه‌های AI غربی که مشتاق به ماندن رقابتی هستند، به کار گرفته می‌شوند.

در حالی که خوش‌بینی در مورد بهبودهای بالقوه و افزایش کارایی‌ها وجود دارد، SemiAnalysis از چالش‌های خارجی هشدار می‌دهد.

گزارش پیش‌بینی می‌کند که هزینه‌های عملیاتی می‌تواند بار دیگر پنج برابر کاهش یابد تا پایان سال، به دلیل توانایی DeepSeek برای انطباق سریع‌تر با همتایان بزرگتر و بوروکراتیک‌تر خود.

با این حال، مقیاس‌بندی عملیات در میان کنترل‌های صادراتی ایالات متحده که در حال سخت‌تر شدن هستند، یک مانع قابل توجه است که DeepSeek باید با دقت از آن عبور کند.

در نتیجه، SemiAnalysis تصویری پیچیده از وضعیت فعلی DeepSeek در عرصه AI ارائه می‌دهد.

افشاگری‌ها در مورد ساختار هزینه‌های آن، استفاده از GPU‌ها و توانایی‌های نوآورانه آن DeepSeek را به عنوان یک بازیکن قدرتمند معرفی می‌کند.

همان‌طور که شرکت به تکامل ادامه می‌دهد، صنعت به دقت نظاره می‌کند—مشتاق به دیدن چگونگی پاسخگویی به چالش‌ها و فرصت‌های نوظهور در یک عرصه همیشه در حال تغییر است.

توسط
Interesting Engineering
منبع
Interesting Engineering
Exit mobile version