تحقیقات نشان میدهد هزینه آموزش هوش مصنوعی DeepSeek نه ۶ میلیون دلار بلکه ۱.۳ میلیارد دلار است
در جدیدترین گزارش خود، SemiAnalysis، یک شرکت تحقیقاتی مستقل، به DeepSeek، یک بازیکن نوظهور در عرصه هوش مصنوعی پرداخته است.
SemiAnalysis به برخی از روایات رایج پیرامون هزینههای DeepSeek انتقاد میکند و آنها را با فناوریهای رقیب در بازار مقایسه میکند.
یکی از ادعاهای برجسته این است که هزینه آموزش DeepSeek V3 حدود ۶ میلیون دلار است.
با این حال، گزارش SemiAnalysis این رقم را بازگو میکند و میگوید که این رقم به چندین مورد مهم توجه نکرده است.
افسانه ۶ میلیون دلاری DeepSeek
این تخمین ۶ میلیون دلاری عمدتاً هزینههای پیشآموزش با GPU را در نظر میگیرد، اما به سرمایهگذاریهای مهم در تحقیق و توسعه، زیرساخت و دیگر هزینههای اساسی که به شرکت تعلق میگیرد توجه نکرده است.
گزارش نشان میدهد که هزینه کل سرمایهگذاری سروری DeepSeek به ۱.۳ میلیارد دلار بالغ میشود.
بخش زیادی از این تعهد مالی برای اداره و نگهداری خوشههای گسترده GPU که ستون فقراتی قدرت محاسباتی آن است، هزینه میشود.
به گفته گزارش، DeepSeek به حدود ۵۰,۰۰۰ GPU Hopper دسترسی دارد که منجر به برخی تفکرات نادرست در صنعت شده است.
SemiAnalysis تصریح میکند که این به معنای داشتن ۵۰,۰۰۰ H100 نیست، همانطور که برخی پیشتر از این نتیجه گرفته بودند.
بر خلاف آن، موجودی GPU شامل مدلی متفاوت است که شامل H800، H100 و H20s ویژه کشور است که توسط NVIDIA در پاسخ به محدودیتهای صادراتی ایالات متحده تولید شدهاند.
این درک از موجودی سختافزاری آنها تصمیمگیریهای استراتژیک در منبعیابی و کارایی عملیاتی DeepSeek را تقویت میکند.
یکی از جنبههای قابل توجه گزارش، بازتاب ساختار سازمانی DeepSeek است.
بر خلاف برخی از آزمایشگاههای بزرگ هوش مصنوعی، DeepSeek مراکز داده خود را اداره میکند و از مدل ساده شدهای استفاده میکند که به چابکی و کارایی آن کمک میکند.
همانطور که عرصه هوش مصنوعی به طور فزآینده رقابتی میشود، این توانایی سازگاری سریع به دارایی مهم تبدیل میشود.
بهتر شدن قابلیتهای استداللی
از نظر عملکرد، تحلیلها نشان میدهند که مدل R1 DeepSeek قابلیتهای استدلالی مشابه OpenAI's o1 را دارد.
با این حال، پیش از این که DeepSeek در هر معیار عملکردی به عنوان یک رهبر بلامنازع شناخته شود، توقف میکند.
در حالی که استراتژی قیمتگذاری DeepSeek توجه و تحسینهایی را به خود جلب کرده است، یک نکته مهم وجود دارد: Google’s Gemini Flash 2.0 که از نظر قابلیت مشابه است، نشان میدهد که با دسترسی از طریق خدمات API حتی اقتصادیتر است.
این موقعیت DeepSeek را در یک مقاطع قرار میدهد که تعادل عملکرد و هزینه کلید موفقیت آینده آن است.
فناوری Multi-Head Latent Attention یک نوآوری پیشگامانه است که در گزارش بر آن تأکید شده است.
این رویکرد پیشرفته با کاهش چشمگیر استفاده از کلید-مقدار (KV) caching، هزینه پیشبینی را به میزان ۹۳.۳٪ کاهش میدهد و یک گام مهم به سوی راهحلهای AI اقتصادیتر است.
کارشناسان پیشنهاد میکنند که نوآوریهای به وجود آمده از DeepSeek به سرعت توسط آزمایشگاههای AI غربی که مشتاق به ماندن رقابتی هستند، به کار گرفته میشوند.
در حالی که خوشبینی در مورد بهبودهای بالقوه و افزایش کاراییها وجود دارد، SemiAnalysis از چالشهای خارجی هشدار میدهد.
گزارش پیشبینی میکند که هزینههای عملیاتی میتواند بار دیگر پنج برابر کاهش یابد تا پایان سال، به دلیل توانایی DeepSeek برای انطباق سریعتر با همتایان بزرگتر و بوروکراتیکتر خود.
با این حال، مقیاسبندی عملیات در میان کنترلهای صادراتی ایالات متحده که در حال سختتر شدن هستند، یک مانع قابل توجه است که DeepSeek باید با دقت از آن عبور کند.
در نتیجه، SemiAnalysis تصویری پیچیده از وضعیت فعلی DeepSeek در عرصه AI ارائه میدهد.
افشاگریها در مورد ساختار هزینههای آن، استفاده از GPUها و تواناییهای نوآورانه آن DeepSeek را به عنوان یک بازیکن قدرتمند معرفی میکند.
همانطور که شرکت به تکامل ادامه میدهد، صنعت به دقت نظاره میکند—مشتاق به دیدن چگونگی پاسخگویی به چالشها و فرصتهای نوظهور در یک عرصه همیشه در حال تغییر است.