تکنولوژی

خبرگزاری‌ها پرکس‌پلیکسیتی را به سرقت ادبی و اسکرپینگ غیر اخلاقی وب متهم می‌کنند

در عصر هوش مصنوعی مولد، مرز بین استفاده منصفانه و سرقت ادبی و بین اسکرپینگ سایت‌ها و خلاصه‌سازی غیر اخلاقی بسیار باریک است. استارتاپ پرکس‌پلیکسیتی که ترکیبی از موتور جستجو و مدل زبانی بزرگ است، به دلیل رویکرد جمع‌آوری اطلاعات به ادعای فراد، وایرد و دیگر خبرگزاری‌ها به سرقت ادبی متهم شده است. این شرکت ادعا می‌کند که در حدود قوانین استفاده منصفانه عمل می‌کند و درخواست ناشران برای عدم جمع‌آوری اطلاعات را رعایت کرده است. با این حال، این مسئله پیچیدگی‌های خاص خود را دارد و همچنان در قلب بحث درباره پروتکل محرومیت ربات‌ها و استفاده منصفانه در قوانین حق تکثیر قرار دارد. در عصر هوش مصنوعی مولد، زمانی که چت‌بات‌ها می‌توانند پاسخ‌های دقیقی به سوالات ارائه دهند که بر اساس محتوای اینترنتی است، مرز بین استفاده منصفانه و سرقت ادبی و بین اسکرپینگ روتین وب و خلاصه‌سازی غیر اخلاقی بسیار باریک است. پرکس‌پلیکسیتی یک استارتاپ است که موتور جستجو را با یک مدل زبان بزرگ ترکیب می‌کند که پاسخ‌های دقیقی ارائه می‌دهد، به جای ارجاع به لینک‌ها. برخلاف ChatGPT از OpenAI و Claude از Anthropic، پرکس‌پلیکسیتی مدل‌های پایه‌ای خود را آموزش نمی‌دهد، بلکه از مدل‌های باز یا تجاری موجود استفاده می‌کند تا اطلاعاتی که از اینترنت جمع‌آوری می‌کند را به پاسخ‌ها تبدیل کند. اما سلسله‌ای از اتهامات در ژوئن، نشان می‌دهد که رویکرد این استارتاپ به مرز غیر اخلاقی نزدیک می‌شود. فوربس پرکس‌پلیکسیتی را به سرقت ادبی یکی از مقالات خبری خود در ویژگی بتای صفحات پرکس‌پلیکسیتی متهم کرده است. و وایرد پرکس‌پلیکسیتی را به اسکرپینگ غیر مجاز از وب‌سایت خود و دیگر سایت‌ها متهم کرده است. پرکس‌پلیکسیتی که از آوریل در تلاش برای جمع‌آوری 250 میلیون دلار به ارزش نزدیک به 3 میلیارد دلار بود، معتقد است که هیچ کار اشتباهی نکرده است. این شرکت که توسط Nvidia و جف بزوس پشتیبانی می‌شود، می‌گوید که درخواست ناشران برای عدم جمع‌آوری اطلاعات را رعایت کرده و در حدود قوانین استفاده منصفانه حق تکثیر عمل می‌کند. وضعیت پیچیده است. در قلب آن تفاوت‌های ظریف در دو مفهوم وجود دارد. اولین آن پروتکل محرومیت ربات‌ها است، یک استاندارد که توسط وب‌سایت‌ها استفاده می‌شود تا نشان دهند که نمی‌خواهند محتوای آنها توسط کراولرهای وب دسترسی یا استفاده شود. دوم استفاده منصفانه در قانون حق تکثیر است که چارچوب قانونی برای اجازه استفاده از مواد دارای حق تکثیر بدون اجازه یا پرداخت در شرایط خاص را تنظیم می‌کند. داستان وایرد در 19 ژوئن ادعا می‌کند که پرکس‌پلیکسیتی پروتکل محرومیت ربات‌ها را نادیده گرفته تا به صورت پنهانی بخش‌هایی از وب‌سایت‌ها را که ناشران نمی‌خواهند ربات‌ها به آن دسترسی پیدا کنند، اسکرپ کند. وایرد گزارش داده که مشاهده شده ماشینی متصل به پرکس‌پلیکسیتی این کار را در وب‌سایت خبری خود و همچنین دیگر انتشارات تحت والدین شرکت انجام داده است. گزارش اشاره کرده که توسعه‌دهنده راب نایت هم آزمایش مشابهی انجام داده و به همین نتیجه رسیده است. هر دو خبرنگاران وایرد و نایت سوء ظن‌های خود را با درخواست پرکس‌پلیکسیتی برای خلاصه‌سازی مجموعه‌ای از URLها و سپس مشاهده در سمت سرور به عنوان یک آدرس IP مرتبط با پرکس‌پلیکسیتی که از این سایت‌ها بازدید می‌کند، آزمایش کرده‌اند. پرکس‌پلیکسیتی سپس متن را از این URLها خلاصه کرده است. این جایی است که تفاوت‌های پروتکل محرومیت ربات‌ها به بازی می‌آیند. اسکرپینگ وب در اصل زمانی است که قطعات نرم‌افزاری خودکار به نام کراولرها، وب را می‌گردند تا اطلاعات را از وب‌سایت‌ها جمع‌آوری کنند. موتورهای جستجو مانند گوگل این کار را انجام می‌دهند تا صفحات وب در نتایج جستجو درج شوند. شرکت‌ها و محققان دیگر از کراولرها برای جمع‌آوری داده‌ها از اینترنت برای تحلیل بازار، تحقیقاتی دانشگاهی و آموزش مدل‌های یادگیری ماشینی استفاده می‌کنند. اسکرپرهای وب که با این پروتکل مطابقت دارند، ابتدا فایل robots.txt را در کد منبع سایت جستجو می‌کنند تا ببینند چه چیزی مجاز است و چه چیزی نیست. امروز، آنچه که مجاز نیست، معمولاً اسکرپینگ یک سایت ناشر برای ساخت دیتاست‌های آموزشی عظیم برای هوش مصنوعی است. موتورهای جستجو و شرکت‌های هوش مصنوعی، از جمله پرکس‌پلیکسیتی، اعلام کرده‌اند که با پروتکل مطابقت دارند، اما از نظر قانونی مجبور به انجام این کار نیستند. دیمیتری شلونکو، مدیر تجاری پرکس‌پلیکسیتی، به تک‌کرانچ گفته که خلاصه‌سازی یک URL همانند کراولینگ نیست. شلونکو گفت که IP پرکس‌پلیکسیتی ممکن است به عنوان بازدیدکننده از یک وب‌سایت که در غیر این صورت توسط robots.txt ممنوع شده است، ظاهر شود. در واقع، اگر یک کاربر دستی URLی را به یک هوش مصنوعی ارائه دهد، پرکس‌پلیکسیتی می‌گوید هوش مصنوعی‌اش در نقش یک کراولر وب عمل نمی‌کند بلکه به عنوان یک ابزار برای کمک به کاربر در بازگرداندن و پردازش اطلاعات عمل می‌کند که درخواست کرده است. اما به نظر وایرد و بسیاری از ناشران، این یک تفاوت بی‌اهمیت است زیرا بازدید از URL و جمع‌آوری اطلاعات از آن برای خلاصه‌سازی متن، اگر هزاران بار در روز انجام شود، شبیه به اسکرپینگ به نظر می‌رسد. (وایرد همچنین گزارش داده که آمازون وب سرویسز، یکی از ارائه‌دهندگان خدمات ابری پرکس‌پلیکسیتی، در حال بررسی استارتاپ برای نادیده گرفتن پروتکل robots.txt به منظور اسکرپ کردن صفحات وبی است که کاربران در درخواست‌های خود ذکر کرده‌اند. AWS به تک‌کرانچ گفته که گزارش وایرد نادرست است و به این رسانه گفته که درخواست رسانه‌ای آن‌ها را مانند هر گزارش دیگری که ادعای سوء استفاده از خدمات دارد، پردازش می‌کند.) وایرد و فوربس پرکس‌پلیکسیتی را به سرقت ادبی نیز متهم کرده‌اند. جالب است که وایرد گفته پرکس‌پلیکسیتی مقاله‌ای را که این استارتاپ را به اسکرپینگ پنهانی محتوای وب خود متهم کرده بود، سرقت ادبی کرده است. خبرنگاران وایرد گفته‌اند که چت‌بات پرکس‌پلیکسیتی یک متن 287 کلمه‌ای در شش پاراگراف تولید کرده که هم نتیجه‌گیری داستان و هم شواهدی که برای رسیدن به آن‌ها استفاده شده را به طور دقیق خلاصه کرده است. فوربس هم پرکس‌پلیکسیتی را به سرقت ادبی متهم کرده است. این سایت خبری در اوایل ژوئن گزارشی تحقیقی درباره این که چگونه شرکت جدید گوگل، ایرک اشمیت، در حال جذب نیروی گسترده و تست پهپادهای AI با کاربردهای نظامی است، منتشر کرده است. روز بعد، ویرایشگر فوربس، جان پاکزوفسکی، در ایکس پستی زده و گفته پرکس‌پلیکسیتی این گزارش را به عنوان بخشی از ویژگی بتای صفحات پرکس‌پلیکسیتی بازنشر کرده است. پرکس‌پلیکسیتی پیجز، که در حال حاضر فقط برای تعدادی از مشترکان پرکس‌پلیکسیتی در دسترس است، یک ابزار جدید است که به کاربران کمک می‌کند تحقیقات خود را به محتوای جامع و بصری جذاب تبدیل کنند. فوربس گزارش داده که بسیاری از پست‌هایی که توسط تیم پرکس‌پلیکسیتی جمع‌آوری شده‌اند، بسیار شبیه به داستان‌های اصلی از رسانه‌های متعدد از جمله فوربس، CNBC و بلومبرگ هستند. فوربس گفته که این پست‌ها ده‌ها هزار بازدید داشته‌اند و هیچ‌کدام از رسانه‌ها در متن مقاله ذکر نشده‌اند. فوربس همچنین گفته که پست درباره اشمیت حاوی واژگانی تقریباً یکسان با گزارش اصلی فوربس است. پرکس‌پلیکسیتی بیشتر به حق خود برای استفاده از چنین محتوایی برای خلاصه‌سازی‌ها پایبند بوده است. طبق دفتر حق تکثیر آمریکا، استفاده از بخش‌های محدودی از یک اثر از جمله نقل‌قول‌ها برای مقاصدی همچون تفسیر، انتقاد، گزارش خبری و گزارش‌های علمی قانونی است.
توسط
Tech Crunch
منبع
Tech Crunch
نمایش بیشتر

اخبار مرتبط

بازگشت به بالا