تکنولوژی

چگونه ناشران معاملات میلیون دلاری را با مواجهه AI با کمبود داده‌ها ایجاد می‌کنند

سیستم‌های هوش مصنوعی به داده‌های گسترده و متنوع برای آموزش نیاز دارند، اما با کاهش منابع آنلاین، ناشران علمی با شرکت‌های فناوری معاملاتی پرسود آغاز کرده‌اند تا داده‌های خود را به آنها license کنند. این معاملات علاوه بر درآمدزایی، سوالات اخلاقی و مالکیتی را نیز مطرح می‌کنند.

سیستم‌های AI، به‌ویژه مدل‌های زبان بزرگ (LLM)، برای آموزش و عملکرد نیازمند اطلاعات گسترده و متنوع هستند.

با این حال، این سیستم‌های همیشه گرسنه همچنین به ورود مداوم داده‌ها نیاز دارند تا اشتهای سیری‌ناپذیر خود را ارضا کنند، که منجر به کمبود داده‌ها می‌شود، با پیش‌بینی‌های نشان‌دهنده این که مدل‌های AI به زودی متون آنلاین عمومی موجود را تمام خواهند کرد.

این وابستگی، محتوای غنی و دقیق علمی را که اطلاعات را بررسی کرده است، به عنوان یک منبع بسیار ارزشمند برای آموزش این سیستم‌های پیشرفته AI قرار داده است.

به همین دلیل، ناشران علمی که متولیان آرشیوهای وسیع تحقیقات دقیق هستند، با شرکت‌های فناوری توافقنامه‌های مجوز چند میلیون دلاری بسته‌اند. این معاملات به شرکت‌های فناوری داده‌های حیاتی برای آموزش AIهای‌شان فراهم می‌کند و همزمان برای ناشران جریانی سودآور را فراهم می‌آورند.

در حالی که از نظر مالی سودآور است، این همکاری‌ها همچنین سوالات پیچیده‌ای از اخلاق، مالکیت و پیامدهای گسترده‌تر برای دسترسی به دانش را فراهم می‌آورند.

توافقنامه‌های میلیون ‌دلاری AI

در ماه‌های اخیر، برخی از مهم‌ترین معاملات در حوزه داده‌های AI شامل همکاری‌هایی بین شرکت‌های فناوری پیشرو و ناشران علمی بوده است. یکی از معاملات قابل توجه مایکروسافت و ناشر علمی بریتانیایی Taylor & Francis بود.

مایکروسافت قرارداد ده میلیون دلاری برای استفاده از آرشیو گسترده مقاله‌های این ناشر برای آموزش سیستم‌های AI خود به دست آورد. به همین ترتیب، ناشر علمی Wiley نیز قراردادهای سودآوری بسته و به سرمایه‌گذاران خود گزارش داده است که ۲۳ میلیون دلار درآمد از یک قرارداد با یک شرکت فناوری نامشخص داشته، و انتظار دارد ۲۱ میلیون دلار دیگر طی سال مالی دریافت کند.

از دید ناشران، این معاملات نمایانگر فرصت درآمدی قابل توجهی هستند، که عاملی حیاتی در صنعتی است که اغلب با محدودیت‌های مالی دست‌و‌پنجه نرم می‌کند. با این حال، در کنار پتانسیل سود، این توافق‌ها سوالات اخلاقی را برمی‌انگیزند.

ناشران باید به مسائل پیچیده حقوق مالکیت معنوی بپردازند و استفاده مسئولانه از محتوای علمی را تضمین کنند. نگرانی اصلی این است که معاملات تجاری نباید به یکپارچگی یا دسترسی به کار علمی آسیب برسانند.

کمبود داده‌ها در توسعه AI

با رشد سیستم‌های AI، به‌ویژه مدل‌های زبان بزرگ (LLM)، اشتهای سیری‌ناپذیرشان برای داده‌ها منجر به مصرف بی‌سابقه متون آنلاین قابل دسترس شده است.

این روند به مرزهای منابع متنی اینترنت فشار می‌آورد، با پیش‌بینی‌های برجسته که نشان می‌دهد تا سال ۲۰۲۸، مدل‌های AI ممکن است منابع متون آنلاین عمومی موجود برای اهداف آموزشی را تمام کنند. کمبود داده واقعی است برای سیستمی که به طور مداوم به داده نیاز دارد برای رشد و هوش، که چالشی محوری برای جامعه تحقیقاتی AI محسوب می‌شود.

ارائه‌دهندگان محتوا، که از استفاده غیرمجاز نگران هستند، محدودیت‌هایی بر چگونگی دسترسی و استفاده از داده‌های خود اعمال می‌کنند. رسانه‌های خبری بزرگی مانند نیویورک تایمز اقدامات قانونی علیه AI شرکت‌ها را آغاز کرده‌اند، که درخواست جبران خسارت و کنترل بیشتر بر مالکیت معنوی خود را دارند. این تحولات نشان دهنده تغییری در "commons داده‌ها" است، جایی که منابع آزادانه در دسترس، تحت محافظت بیشتری قرار می‌گیرند و دسترسی محکمتر می‌شود.

در پاسخ به این محدودیت‌ها, توسعه‌دهندگان AI در حال بررسی استراتژی‌های جایگزین هستند. شرکت‌های AI پیشرو، از جمله OpenAI و Anthropic، این مسئله را اذعان کرده و بر راه‌حل‌های نوآورانه‌ای برای مواجهه با کمبودهای داده‌ای احتمالی سرمایه‌گذاری می‌کنند.

این استراتژی‌ها شامل تشکیل همکاری‌ها برای دسترسی به داده‌های غیرعمومی، تولید داده‌های مصنوعی و استفاده از منابع داده‌ای غیرمتعارف است که به‌طور سنتی برای آموزش AI استفاده نشده‌اند. این شامل مقاله‌های علمی و داده‌های دانشگاهی است. این اقدامات تطبیقی برای حفظ سرعت پیشرفت AI و اجرای قوانین پیچیده حق چاپ و ملاحظات اخلاقی حیاتی هستند.

این سناریو یک چالش و فرصت دوگانه را برای جامعه علمی ارائه می‌دهد. از یک سو، سفت شدن دسترسی به داده‌ها می‌تواند تبادل آزاد دانش را مختل کرده و تحقیق دانشگاهی را پیچیده کند. از سوی دیگر، این فرصتی برای دانشگاه‌ها فراهم می‌آورد تا نقش خود را در اکوسیستم AI بازتعریف کرده و ممکن است به ایجاد و نگه‌داری داده‌های باکیفیت بالا که به حقوق کپی‌رایت و استانداردهای اخلاقی احترام می‌گذارد، پیشگام باشند و در نتیجه به توسعه مسئولانه AI کمک کنند.

رهگیر توافقنامه‌های مجوز AI تولیدی

در پاسخ به روند رو به رشد توافقنامه‌های مجوز، راجر شونفلد و همکارانش در Ithaka S+R، یک خدمات مشاوره‌ای که بر آموزش عالی تمرکز دارد، رهگیر توافقنامه مجوز AI تولیدی را آغاز کردند. شونفلد مشاهده کرد: "ما شاهد اعلامیه‌های این معاملات بودیم و به این فکر افتادیم که این شروع به یک الگو شدن است."

رهگیر عمدتاً به افزایش شفافیت می‌پردازد و یک منبع حیاتی برای جامعه دانشگاهی است. این نورتابش می‌دهد بر ماهیت و گستره این معاملات، توافقنامه‌های فردی را فهرست می‌کند، و طرحی گسترده‌تر در صنعت با مستندسازی معاملات تایید شده و پیش رو بین ناشران عمده دانشگاهی و شرکت‌های فناوری ترسیم می‌کند.

تصمیمات استراتژیک ناشران در مجوز AI

در حالی که نهادهایی مانند Wiley و Taylor & Francis به سرعت به فرصت‌های ارائه شده توسط فناوری AI سازگار شده و آنها را پذیرفته‌اند، دیگران احتیاط بیشتری نشان می‌دهند. در مقابل، انجمن آمریکایی برای پیشرفت علم (AAAS)، یک ناشر علمی غیرانتفاعی که نشریه Science را منتشر می‌کند، رویکردی مسئولانه‌تر اتخاذ کرده است.

میگان فیلان، مدیر ارتباطات خانواده نشریات Science، اشاره کرد که AAAS ممکن است در صورت برآورده کردن معیارهای خاص، مجوز محتوای خود را به شرکت‌های فناوری بدهد و اعتماد شرکت و مفید بودن ابزارهای ایجاد شده با محتوا را ارزیابی کند.

این رویکردهای متفاوت به دلایل استراتژیک که ناشران روبرو می‌کنند اشاره دارد. تصمیم به ورود به معاملات مجوز AI شامل سنجیدن درآمد بالقوه در برابر خطرات از دست دادن کنترل بر استفاده از محتوای دانشگاهی است. سلامت اکوسیستم دانشگاهی به تعادل حقوق مالکیت معنوی با دسترسی آزاد در حین در نظر گرفتن احتمال تناسخ بستگی دارد. ناشران باید میان نوآوری و سودآوری و مسئولیت اخلاقی تعادل برقرار کنند.

تألیف و مالکیت در عصر AI

ادغام AI در نشر علمی واکنش‌های متفاوتی از نویسندگان که کارهای‌شان محور این معاملات مجوز هستند برانگیخته است. در حالی که بعضی نویسندگان حمایت می‌کنند و این همکاری‌ها را به عنوان فرصت‌هایی برای تقویت نفوذ و تأثیر پژوهش خود می‌بینند، دیگران شک دارند یا حتی از مفاهیم این توافق‌ها برای کار خود بی‌خبرند. نگرانی‌ها عمدتاً حول کنترل بر مالکیت معنوی آن‌ها و احتمال سوء‌استفاده از محتوای علمی‌شان دچار شده‌اند.

به منظور پرداختن به این نگرانی‌ها و تضمین این که نویسندگان در تاریکی نمانند، بعضی ناشران استراتژی‌های مختلفی برای درگیر کردن نویسندگان در فرآیند مجوز تنظیم کرده‌اند. برای مثال، انتشارات دانشگاهی کمبریج & تأیید (CUPA) رویکرد opt-in را اتخاذ کرده و به طور فعالانه با حدود ۲۰۰۰ نویسنده تماس گرفته و پیش از مجوز دادن محتوای‌شان به شرکت‌های فناوری که LLM‌ها را توسعه می‌دهند اجازه می‌گیرد.

مندی هیل ، مدیر عامل CUPA، قصد پشت این رویکرد را تأکید کرد: "ما خواستیم از نویسندگان بپرسیم، نه به این دلیل که فکر می‌کنیم آنها نباید محتوای‌شان آنجا برود، بلکه می‌خواهیم بتوانیم به آنها بگوییم چرا این چیز خوبی است."

توسط
Interesting Engineering
منبع
Interesting Engineering
نمایش بیشتر

اخبار مرتبط

بازگشت به بالا