چگونه ناشران معاملات میلیون دلاری را با مواجهه AI با کمبود دادهها ایجاد میکنند
سیستمهای AI، بهویژه مدلهای زبان بزرگ (LLM)، برای آموزش و عملکرد نیازمند اطلاعات گسترده و متنوع هستند.
با این حال، این سیستمهای همیشه گرسنه همچنین به ورود مداوم دادهها نیاز دارند تا اشتهای سیریناپذیر خود را ارضا کنند، که منجر به کمبود دادهها میشود، با پیشبینیهای نشاندهنده این که مدلهای AI به زودی متون آنلاین عمومی موجود را تمام خواهند کرد.
این وابستگی، محتوای غنی و دقیق علمی را که اطلاعات را بررسی کرده است، به عنوان یک منبع بسیار ارزشمند برای آموزش این سیستمهای پیشرفته AI قرار داده است.
به همین دلیل، ناشران علمی که متولیان آرشیوهای وسیع تحقیقات دقیق هستند، با شرکتهای فناوری توافقنامههای مجوز چند میلیون دلاری بستهاند. این معاملات به شرکتهای فناوری دادههای حیاتی برای آموزش AIهایشان فراهم میکند و همزمان برای ناشران جریانی سودآور را فراهم میآورند.
در حالی که از نظر مالی سودآور است، این همکاریها همچنین سوالات پیچیدهای از اخلاق، مالکیت و پیامدهای گستردهتر برای دسترسی به دانش را فراهم میآورند.
توافقنامههای میلیون دلاری AI
در ماههای اخیر، برخی از مهمترین معاملات در حوزه دادههای AI شامل همکاریهایی بین شرکتهای فناوری پیشرو و ناشران علمی بوده است. یکی از معاملات قابل توجه مایکروسافت و ناشر علمی بریتانیایی Taylor & Francis بود.
مایکروسافت قرارداد ده میلیون دلاری برای استفاده از آرشیو گسترده مقالههای این ناشر برای آموزش سیستمهای AI خود به دست آورد. به همین ترتیب، ناشر علمی Wiley نیز قراردادهای سودآوری بسته و به سرمایهگذاران خود گزارش داده است که ۲۳ میلیون دلار درآمد از یک قرارداد با یک شرکت فناوری نامشخص داشته، و انتظار دارد ۲۱ میلیون دلار دیگر طی سال مالی دریافت کند.
از دید ناشران، این معاملات نمایانگر فرصت درآمدی قابل توجهی هستند، که عاملی حیاتی در صنعتی است که اغلب با محدودیتهای مالی دستوپنجه نرم میکند. با این حال، در کنار پتانسیل سود، این توافقها سوالات اخلاقی را برمیانگیزند.
ناشران باید به مسائل پیچیده حقوق مالکیت معنوی بپردازند و استفاده مسئولانه از محتوای علمی را تضمین کنند. نگرانی اصلی این است که معاملات تجاری نباید به یکپارچگی یا دسترسی به کار علمی آسیب برسانند.
کمبود دادهها در توسعه AI
با رشد سیستمهای AI، بهویژه مدلهای زبان بزرگ (LLM)، اشتهای سیریناپذیرشان برای دادهها منجر به مصرف بیسابقه متون آنلاین قابل دسترس شده است.
این روند به مرزهای منابع متنی اینترنت فشار میآورد، با پیشبینیهای برجسته که نشان میدهد تا سال ۲۰۲۸، مدلهای AI ممکن است منابع متون آنلاین عمومی موجود برای اهداف آموزشی را تمام کنند. کمبود داده واقعی است برای سیستمی که به طور مداوم به داده نیاز دارد برای رشد و هوش، که چالشی محوری برای جامعه تحقیقاتی AI محسوب میشود.
ارائهدهندگان محتوا، که از استفاده غیرمجاز نگران هستند، محدودیتهایی بر چگونگی دسترسی و استفاده از دادههای خود اعمال میکنند. رسانههای خبری بزرگی مانند نیویورک تایمز اقدامات قانونی علیه AI شرکتها را آغاز کردهاند، که درخواست جبران خسارت و کنترل بیشتر بر مالکیت معنوی خود را دارند. این تحولات نشان دهنده تغییری در "commons دادهها" است، جایی که منابع آزادانه در دسترس، تحت محافظت بیشتری قرار میگیرند و دسترسی محکمتر میشود.
در پاسخ به این محدودیتها, توسعهدهندگان AI در حال بررسی استراتژیهای جایگزین هستند. شرکتهای AI پیشرو، از جمله OpenAI و Anthropic، این مسئله را اذعان کرده و بر راهحلهای نوآورانهای برای مواجهه با کمبودهای دادهای احتمالی سرمایهگذاری میکنند.
این استراتژیها شامل تشکیل همکاریها برای دسترسی به دادههای غیرعمومی، تولید دادههای مصنوعی و استفاده از منابع دادهای غیرمتعارف است که بهطور سنتی برای آموزش AI استفاده نشدهاند. این شامل مقالههای علمی و دادههای دانشگاهی است. این اقدامات تطبیقی برای حفظ سرعت پیشرفت AI و اجرای قوانین پیچیده حق چاپ و ملاحظات اخلاقی حیاتی هستند.
این سناریو یک چالش و فرصت دوگانه را برای جامعه علمی ارائه میدهد. از یک سو، سفت شدن دسترسی به دادهها میتواند تبادل آزاد دانش را مختل کرده و تحقیق دانشگاهی را پیچیده کند. از سوی دیگر، این فرصتی برای دانشگاهها فراهم میآورد تا نقش خود را در اکوسیستم AI بازتعریف کرده و ممکن است به ایجاد و نگهداری دادههای باکیفیت بالا که به حقوق کپیرایت و استانداردهای اخلاقی احترام میگذارد، پیشگام باشند و در نتیجه به توسعه مسئولانه AI کمک کنند.
رهگیر توافقنامههای مجوز AI تولیدی
در پاسخ به روند رو به رشد توافقنامههای مجوز، راجر شونفلد و همکارانش در Ithaka S+R، یک خدمات مشاورهای که بر آموزش عالی تمرکز دارد، رهگیر توافقنامه مجوز AI تولیدی را آغاز کردند. شونفلد مشاهده کرد: "ما شاهد اعلامیههای این معاملات بودیم و به این فکر افتادیم که این شروع به یک الگو شدن است."
رهگیر عمدتاً به افزایش شفافیت میپردازد و یک منبع حیاتی برای جامعه دانشگاهی است. این نورتابش میدهد بر ماهیت و گستره این معاملات، توافقنامههای فردی را فهرست میکند، و طرحی گستردهتر در صنعت با مستندسازی معاملات تایید شده و پیش رو بین ناشران عمده دانشگاهی و شرکتهای فناوری ترسیم میکند.
تصمیمات استراتژیک ناشران در مجوز AI
در حالی که نهادهایی مانند Wiley و Taylor & Francis به سرعت به فرصتهای ارائه شده توسط فناوری AI سازگار شده و آنها را پذیرفتهاند، دیگران احتیاط بیشتری نشان میدهند. در مقابل، انجمن آمریکایی برای پیشرفت علم (AAAS)، یک ناشر علمی غیرانتفاعی که نشریه Science را منتشر میکند، رویکردی مسئولانهتر اتخاذ کرده است.
میگان فیلان، مدیر ارتباطات خانواده نشریات Science، اشاره کرد که AAAS ممکن است در صورت برآورده کردن معیارهای خاص، مجوز محتوای خود را به شرکتهای فناوری بدهد و اعتماد شرکت و مفید بودن ابزارهای ایجاد شده با محتوا را ارزیابی کند.
این رویکردهای متفاوت به دلایل استراتژیک که ناشران روبرو میکنند اشاره دارد. تصمیم به ورود به معاملات مجوز AI شامل سنجیدن درآمد بالقوه در برابر خطرات از دست دادن کنترل بر استفاده از محتوای دانشگاهی است. سلامت اکوسیستم دانشگاهی به تعادل حقوق مالکیت معنوی با دسترسی آزاد در حین در نظر گرفتن احتمال تناسخ بستگی دارد. ناشران باید میان نوآوری و سودآوری و مسئولیت اخلاقی تعادل برقرار کنند.
تألیف و مالکیت در عصر AI
ادغام AI در نشر علمی واکنشهای متفاوتی از نویسندگان که کارهایشان محور این معاملات مجوز هستند برانگیخته است. در حالی که بعضی نویسندگان حمایت میکنند و این همکاریها را به عنوان فرصتهایی برای تقویت نفوذ و تأثیر پژوهش خود میبینند، دیگران شک دارند یا حتی از مفاهیم این توافقها برای کار خود بیخبرند. نگرانیها عمدتاً حول کنترل بر مالکیت معنوی آنها و احتمال سوءاستفاده از محتوای علمیشان دچار شدهاند.
به منظور پرداختن به این نگرانیها و تضمین این که نویسندگان در تاریکی نمانند، بعضی ناشران استراتژیهای مختلفی برای درگیر کردن نویسندگان در فرآیند مجوز تنظیم کردهاند. برای مثال، انتشارات دانشگاهی کمبریج & تأیید (CUPA) رویکرد opt-in را اتخاذ کرده و به طور فعالانه با حدود ۲۰۰۰ نویسنده تماس گرفته و پیش از مجوز دادن محتوایشان به شرکتهای فناوری که LLMها را توسعه میدهند اجازه میگیرد.
مندی هیل ، مدیر عامل CUPA، قصد پشت این رویکرد را تأکید کرد: "ما خواستیم از نویسندگان بپرسیم، نه به این دلیل که فکر میکنیم آنها نباید محتوایشان آنجا برود، بلکه میخواهیم بتوانیم به آنها بگوییم چرا این چیز خوبی است."