سرقت دادههای دیپسیک: ادعای نابجا شدن از طرف OpenAI در حالی که منتقدان اخلاق خود آن را زیر سوال میبرند
در یک نزاع سریع، OpenAI شرکت نوپای چینی دیپسیک را متهم کرده است که از خروجیهای مدلهای اختصاصی آن برای آموزش یک ربات گفتگو رقابتی استفاده کرده، با این که خود OpenAI به چندین بار برای نقض حقتالیف و سوءاستفاده داده تحت پیگرد حقوقی قرار گرفته است.
به گزارش فایننشال تایمز ، OpenAI باور دارد که دیپسیک ممکن است اطلاعات را از ChatGPT "تقطیر" کرده باشد، و ممکن است به نقض شرایط استفاده شرکت پرداخته باشد.
"مسئله زمانی است که شما [آن را از پلتفرم خارج کرده و] برای ایجاد مدل خود به اهداف خود استفاده کنید،" یک منبع نزدیک به OpenAI به FT گفت. سام آلتمن، مدیرعامل OpenAI قبلاً اذعان کرده بود که آموزش مدلهای پیشرفته هوش مصنوعی نیازمند مواد دارای حقتالیف است و گفت که بدون این کار توسعه چنین سیستمهایی غیرممکن خواهد بود.
تقریباً بلافاصله، ناظران در رسانههای اجتماعی به آنچه به عنوان دورویی از OpenAI تلقی شد واکنش نشان دادند. یک کاربر بلوسکای نوشت، "مضحک است که OpenAI، که بهطور کامل دادههای ما را بدون پرسش بلعید، اکنون انگشت اتهام به طرف دیپسیک برای انجام همان کار گرفته است."
اد زیترون، یک منتقد هوش مصنوعی، اظهار داشت ، "معذرت میخواهم که نمیتوانم خندهام را متوقف کنم. OpenAI ، شرکتی که بر اساس دزدیدن به معنای واقعی کلمه اینترنت ساخته شده، گریه میکند زیرا دیپسیک ممکن است بر روی خروجیهای ChatGPT آموزش دیده باشد."
در همین حال، دیوید ساکس، تزار هوش مصنوعی کاخ سفید، نیز در مصاحبهای با فاکس نیوز در روز سهشنبه به این موضوع پرداخت. "شواهد محکمی وجود دارد که دیپسیک اینجا تقطیر اطلاعات از مدلهای OpenAI به وجود آورده است، و فکر نمیکنم OpenAI خیلی از این موضوع خوشحال باشد،" ساکس گفت بدون اینکه جزئیات پشت آن ادعا را مطرح کند.
اما تاثیرات قانونی یا سیاستی آنچه ممکن است در پی داشته باشد هنوز مشخص نیست، اما ساکس اشاره کرد به لزوم بررسی دقیق چگونگی آموزش مدلها توسط شرکتها.
از طرفی دانشمندان نیز درباره عمل تقطیر نظر داده/اند. "این یک عمل بسیار معمول برای شرکتهای نوپا و دانشگاهیان است که از خروجیهای LLMهای تجاری انسانی محور، مانند ChatGPT، برای آموزش یک مدل دیگر استفاده کنند،" رتوبیک گوپتا، دانشجوی دکتری در دانشگاه کالیفرنیا، برکلی به FT گفت. "این به این معنی است که شما این مرحله بازخورد انسانی را به صورت رایگان بدست میآورید. برای من تعجبآور نیست که دیپسیک، ظاهراً همان کار را انجام داده باشد."
این بحث درست پس از آن جلب توجه کرد که دیپسیک صنعت جهانی هوش مصنوعی را با معرفی مدلی که به میزان قابلتوجهی نسبت به منابع شرکتهای بزرگ سیلیکونولی نیاز کمتری ندارد، تحت تاثیر قرار داد. مدل AI متنباز خود به نام R1، هفته گذشته با ادعاهایی از تقلید از استدلال انسانی و مطابقت یا تجاوز از مدلهای پیشرو در معیارهای مختلف صنعتی اعلام شد.
دیپسیک همچنین اظهار کرد که R1 را به کسری از هزینه سایر پروژههای بزرگ هوش مصنوعی توسعه دادهاست. این افشاشده/ها گمانهزنی/هایی را برانگیخته است که آیا موفقیتهای دیپسیک ناشی از یک دستاورد مستقل تحقیقاتی است، وابستگی به خروجیهای OpenAI، یا ترکیبی از این عوامل است.
علیرغم نامش، OpenAI، یک شرکت انتفاعی و منبع بسته، با دعوی حقوقی نقض حقتالیف مواجه شده است. منتقدان به این سابقه به عنوان دلیلی برای شک در صحت ادعاهای آن درباره رویههای دیپسیک اشاره کردهاند. یک کاربر نوشت، "OpenAI هیچ صلاحیت اخلاقی برای ادعای حقتالیف ندارد،" به اشارتی به اتهامات اینکه سازمان مقدار زیادی از ماده دارای حقتالیف را بدون جبران مناسب برای سازندگان گردهمآورده است.
سام آلتمن به طور گزارش شده به کارمندان OpenAI گفته که شرکت در حال ارزیابی است که چه مقدار از بهبودهای عملکردی آشکار دیپسیک ممکن است به تقطیر خروجیهای مدل OpenAI منسوب شود. به گفته کسی که با اوضاع آشناست و توسط بلومبرگ نقل قول شده، این بررسی به دنبال تفکیک بین نوآوری واقعی از سوی دیپسیک و وابستگی ممکن به دادههای ChatGPT است.
دیپسیک در خصوص این ادعاهای اخیر به صورت علنی واکنش نشان ندادهاست. آیا این شرکت "تهدیدی برای امنیت ملی" به شمار میرود، همانطور که برخی اشاره کردهاند، "هنوز باید دید"، بر اساس اطلاعاتی که توسط مسئولان دولتی به اشتراک گذاشته شدهاست.
کاخ سفید اعلام کرده که در حال حاضر ارزیابی خطرات احتمالی مرتبط با فناوری دیپسیک است، اگرچه یافتههای خاصی اعلام نشدهاست. همانطور که وضعیت توسعه مییابد، ناظران در حیطههای تکنولوژی و سیاست همچنان به مشاهده حرکتهای بعدی هر دو شرکت و دلالتهای وسیعتر برای شیوههای پژوهش AI ادامه میدهند.