تکنولوژی
خبرگزاریها پرکسپلیکسیتی را به سرقت ادبی و اسکرپینگ غیر اخلاقی وب متهم میکنند
در عصر هوش مصنوعی مولد، مرز بین استفاده منصفانه و سرقت ادبی و بین اسکرپینگ سایتها و خلاصهسازی غیر اخلاقی بسیار باریک است. استارتاپ پرکسپلیکسیتی که ترکیبی از موتور جستجو و مدل زبانی بزرگ است، به دلیل رویکرد جمعآوری اطلاعات به ادعای فراد، وایرد و دیگر خبرگزاریها به سرقت ادبی متهم شده است. این شرکت ادعا میکند که در حدود قوانین استفاده منصفانه عمل میکند و درخواست ناشران برای عدم جمعآوری اطلاعات را رعایت کرده است. با این حال، این مسئله پیچیدگیهای خاص خود را دارد و همچنان در قلب بحث درباره پروتکل محرومیت رباتها و استفاده منصفانه در قوانین حق تکثیر قرار دارد.
در عصر هوش مصنوعی مولد، زمانی که چتباتها میتوانند پاسخهای دقیقی به سوالات ارائه دهند که بر اساس محتوای اینترنتی است، مرز بین استفاده منصفانه و سرقت ادبی و بین اسکرپینگ روتین وب و خلاصهسازی غیر اخلاقی بسیار باریک است. پرکسپلیکسیتی یک استارتاپ است که موتور جستجو را با یک مدل زبان بزرگ ترکیب میکند که پاسخهای دقیقی ارائه میدهد، به جای ارجاع به لینکها. برخلاف ChatGPT از OpenAI و Claude از Anthropic، پرکسپلیکسیتی مدلهای پایهای خود را آموزش نمیدهد، بلکه از مدلهای باز یا تجاری موجود استفاده میکند تا اطلاعاتی که از اینترنت جمعآوری میکند را به پاسخها تبدیل کند. اما سلسلهای از اتهامات در ژوئن، نشان میدهد که رویکرد این استارتاپ به مرز غیر اخلاقی نزدیک میشود. فوربس پرکسپلیکسیتی را به سرقت ادبی یکی از مقالات خبری خود در ویژگی بتای صفحات پرکسپلیکسیتی متهم کرده است. و وایرد پرکسپلیکسیتی را به اسکرپینگ غیر مجاز از وبسایت خود و دیگر سایتها متهم کرده است. پرکسپلیکسیتی که از آوریل در تلاش برای جمعآوری 250 میلیون دلار به ارزش نزدیک به 3 میلیارد دلار بود، معتقد است که هیچ کار اشتباهی نکرده است. این شرکت که توسط Nvidia و جف بزوس پشتیبانی میشود، میگوید که درخواست ناشران برای عدم جمعآوری اطلاعات را رعایت کرده و در حدود قوانین استفاده منصفانه حق تکثیر عمل میکند. وضعیت پیچیده است. در قلب آن تفاوتهای ظریف در دو مفهوم وجود دارد. اولین آن پروتکل محرومیت رباتها است، یک استاندارد که توسط وبسایتها استفاده میشود تا نشان دهند که نمیخواهند محتوای آنها توسط کراولرهای وب دسترسی یا استفاده شود. دوم استفاده منصفانه در قانون حق تکثیر است که چارچوب قانونی برای اجازه استفاده از مواد دارای حق تکثیر بدون اجازه یا پرداخت در شرایط خاص را تنظیم میکند. داستان وایرد در 19 ژوئن ادعا میکند که پرکسپلیکسیتی پروتکل محرومیت رباتها را نادیده گرفته تا به صورت پنهانی بخشهایی از وبسایتها را که ناشران نمیخواهند رباتها به آن دسترسی پیدا کنند، اسکرپ کند. وایرد گزارش داده که مشاهده شده ماشینی متصل به پرکسپلیکسیتی این کار را در وبسایت خبری خود و همچنین دیگر انتشارات تحت والدین شرکت انجام داده است. گزارش اشاره کرده که توسعهدهنده راب نایت هم آزمایش مشابهی انجام داده و به همین نتیجه رسیده است. هر دو خبرنگاران وایرد و نایت سوء ظنهای خود را با درخواست پرکسپلیکسیتی برای خلاصهسازی مجموعهای از URLها و سپس مشاهده در سمت سرور به عنوان یک آدرس IP مرتبط با پرکسپلیکسیتی که از این سایتها بازدید میکند، آزمایش کردهاند. پرکسپلیکسیتی سپس متن را از این URLها خلاصه کرده است. این جایی است که تفاوتهای پروتکل محرومیت رباتها به بازی میآیند. اسکرپینگ وب در اصل زمانی است که قطعات نرمافزاری خودکار به نام کراولرها، وب را میگردند تا اطلاعات را از وبسایتها جمعآوری کنند. موتورهای جستجو مانند گوگل این کار را انجام میدهند تا صفحات وب در نتایج جستجو درج شوند. شرکتها و محققان دیگر از کراولرها برای جمعآوری دادهها از اینترنت برای تحلیل بازار، تحقیقاتی دانشگاهی و آموزش مدلهای یادگیری ماشینی استفاده میکنند. اسکرپرهای وب که با این پروتکل مطابقت دارند، ابتدا فایل robots.txt را در کد منبع سایت جستجو میکنند تا ببینند چه چیزی مجاز است و چه چیزی نیست. امروز، آنچه که مجاز نیست، معمولاً اسکرپینگ یک سایت ناشر برای ساخت دیتاستهای آموزشی عظیم برای هوش مصنوعی است. موتورهای جستجو و شرکتهای هوش مصنوعی، از جمله پرکسپلیکسیتی، اعلام کردهاند که با پروتکل مطابقت دارند، اما از نظر قانونی مجبور به انجام این کار نیستند. دیمیتری شلونکو، مدیر تجاری پرکسپلیکسیتی، به تککرانچ گفته که خلاصهسازی یک URL همانند کراولینگ نیست. شلونکو گفت که IP پرکسپلیکسیتی ممکن است به عنوان بازدیدکننده از یک وبسایت که در غیر این صورت توسط robots.txt ممنوع شده است، ظاهر شود. در واقع، اگر یک کاربر دستی URLی را به یک هوش مصنوعی ارائه دهد، پرکسپلیکسیتی میگوید هوش مصنوعیاش در نقش یک کراولر وب عمل نمیکند بلکه به عنوان یک ابزار برای کمک به کاربر در بازگرداندن و پردازش اطلاعات عمل میکند که درخواست کرده است. اما به نظر وایرد و بسیاری از ناشران، این یک تفاوت بیاهمیت است زیرا بازدید از URL و جمعآوری اطلاعات از آن برای خلاصهسازی متن، اگر هزاران بار در روز انجام شود، شبیه به اسکرپینگ به نظر میرسد. (وایرد همچنین گزارش داده که آمازون وب سرویسز، یکی از ارائهدهندگان خدمات ابری پرکسپلیکسیتی، در حال بررسی استارتاپ برای نادیده گرفتن پروتکل robots.txt به منظور اسکرپ کردن صفحات وبی است که کاربران در درخواستهای خود ذکر کردهاند. AWS به تککرانچ گفته که گزارش وایرد نادرست است و به این رسانه گفته که درخواست رسانهای آنها را مانند هر گزارش دیگری که ادعای سوء استفاده از خدمات دارد، پردازش میکند.) وایرد و فوربس پرکسپلیکسیتی را به سرقت ادبی نیز متهم کردهاند. جالب است که وایرد گفته پرکسپلیکسیتی مقالهای را که این استارتاپ را به اسکرپینگ پنهانی محتوای وب خود متهم کرده بود، سرقت ادبی کرده است. خبرنگاران وایرد گفتهاند که چتبات پرکسپلیکسیتی یک متن 287 کلمهای در شش پاراگراف تولید کرده که هم نتیجهگیری داستان و هم شواهدی که برای رسیدن به آنها استفاده شده را به طور دقیق خلاصه کرده است. فوربس هم پرکسپلیکسیتی را به سرقت ادبی متهم کرده است. این سایت خبری در اوایل ژوئن گزارشی تحقیقی درباره این که چگونه شرکت جدید گوگل، ایرک اشمیت، در حال جذب نیروی گسترده و تست پهپادهای AI با کاربردهای نظامی است، منتشر کرده است. روز بعد، ویرایشگر فوربس، جان پاکزوفسکی، در ایکس پستی زده و گفته پرکسپلیکسیتی این گزارش را به عنوان بخشی از ویژگی بتای صفحات پرکسپلیکسیتی بازنشر کرده است. پرکسپلیکسیتی پیجز، که در حال حاضر فقط برای تعدادی از مشترکان پرکسپلیکسیتی در دسترس است، یک ابزار جدید است که به کاربران کمک میکند تحقیقات خود را به محتوای جامع و بصری جذاب تبدیل کنند. فوربس گزارش داده که بسیاری از پستهایی که توسط تیم پرکسپلیکسیتی جمعآوری شدهاند، بسیار شبیه به داستانهای اصلی از رسانههای متعدد از جمله فوربس، CNBC و بلومبرگ هستند. فوربس گفته که این پستها دهها هزار بازدید داشتهاند و هیچکدام از رسانهها در متن مقاله ذکر نشدهاند. فوربس همچنین گفته که پست درباره اشمیت حاوی واژگانی تقریباً یکسان با گزارش اصلی فوربس است. پرکسپلیکسیتی بیشتر به حق خود برای استفاده از چنین محتوایی برای خلاصهسازیها پایبند بوده است. طبق دفتر حق تکثیر آمریکا، استفاده از بخشهای محدودی از یک اثر از جمله نقلقولها برای مقاصدی همچون تفسیر، انتقاد، گزارش خبری و گزارشهای علمی قانونی است.