تکنولوژی

پس از موفقیت AgentGPT، Reworkd به عوامل هوش مصنوعی برای وب‌خراشی متمایل شد

بنیانگذاران Reworkd پس از موفقیت ابزار AgentGPT، که توانست در عرض یک هفته بیش از 100,000 کاربر روزانه جذب کند، در Y Combinator 2023 جایی کسب کردند. با این حال، با درک اینکه ساخت عوامل عمومی هوش مصنوعی بسیار گسترده است، اکنون تمرکز خود را بر روی ساخت عوامل AI برای استخراج داده‌های ساختاریافته از وب عمومی متمرکز کرده‌اند. Reworkd با جمع‌آوری سرمایه 4 میلیون دلاری از سرمایه‌گذاران بزرگ، اکنون به ارائه خدمات وب‌خراشی هوشمند پرداخته و در تولید داده‌های باکیفیت برای مدل‌های AI فعالیت می‌کند.

بنیانگذاران Reworkd سال گذشته با AgentGPT که یک ابزار رایگان برای ساخت عوامل هوش مصنوعی است و در عرض یک هفته بیش از 100,000 کاربر روزانه جذب کرد، در GitHub به شهرت رسیدند. این موضوع باعث شد آن‌ها جایی در گروه تابستانی 2023 Y Combinator کسب کنند، اما بنیانگذاران به سرعت متوجه شدند که ساخت عوامل عمومی هوش مصنوعی بسیار گسترده است. بنابراین اکنون Reworkd یک شرکت وب‌خراشی است که به طور خاص عوامل هوش مصنوعی برای استخراج داده‌های ساختاریافته از وب عمومی می‌سازد.

AgentGPT یک رابط ساده در مرورگر ارائه می‌داد که کاربران می‌توانستند عوامل هوش مصنوعی خودکار ایجاد کنند. به زودی، همه درباره عوامل به عنوان آینده رایانش صحبت می‌کردند.

وقتی این ابزار موفق شد، آسیم شریستا، آدام واتکینز و سریجان سوبدی هنوز در کانادا زندگی می‌کردند و Reworkd وجود نداشت. افزایش وسیع کاربران آن‌ها را شگفت‌زده کرد؛ سوبدی، مدیر اجرایی Reworkd اکنون گفت هزینه ابزار در روز 2000 دلار در تماس‌های API بود. به همین دلیل، آن‌ها باید سریعاً Reworkd را ایجاد کرده و بودجه کسب کنند. یکی از محبوب‌ترین کاربردهای AgentGPT ساخت وب‌خراش‌ها بود، وظیفه‌ای نسبتاً ساده اما با حجم بالا، بنابراین Reworkd این تمرکز واحد را ایجاد کرد.

وب‌خراش‌ها در عصر هوش مصنوعی بی‌قیمت شده‌اند. دلیل شماره یک استفاده از داده‌های وب عمومی در سال 2024 ساخت مدل‌های هوش مصنوعی است، طبق گزارش جدید Bright Data. مشکل این است که وب‌خراش‌ها به طور سنتی توسط انسان‌ها ساخته می‌شوند و باید برای صفحات وب خاص سفارشی شوند، که این امر هزینه‌بر است. اما عوامل هوش مصنوعی Reworkd می‌توانند با تعداد کمتری از انسان‌ها بیشتر وب را خراش دهند.

مشتریان می‌توانند به Reworkd فهرستی از صدها یا حتی هزاران وب‌سایت برای خراش دادن بدهند و سپس انواع داده‌هایی که به آن‌ها علاقه‌مندند را مشخص کنند. سپس عوامل هوش مصنوعی Reworkd با استفاده از تولید کد چند-مدالی این را به داده‌های ساختاریافته تبدیل می‌کنند. عوامل کد یونیکی برای خراش دادن هر وب‌سایت تولید می‌کنند و آن داده‌ها را برای استفاده مشتریان استخراج می‌کنند.

به عنوان مثال، فرض کنید شما می‌خواهید آمار هر بازیکن NFL را داشته باشید، اما هر وب‌سایت تیم یک چیدمان متفاوت دارد. به جای ساختن خراشنده برای هر وب‌سایت، عوامل Reworkd این کار را با توجه به لینک‌ها و توضیحات داده‌هایی که می‌خواهید استخراج کنید، انجام می‌دهند. با 32 تیم، این می‌تواند ساعت‌ها زمان صرفه‌جویی کند — اما اگر 1000 تیم وجود داشته باشد، می‌تواند هفته‌ها زمان را صرفه‌جویی کند.

Reworkd به تازگی 2.75 میلیون دلار سرمایه اولیه از پل گراهام، AI Grant (شتابدهنده استارتاپ نات فریدمن و دنیل گروس)، SV Angel، General Catalyst و Panache Ventures و دیگران جمع‌آوری کرده است، این استارتاپ به طور انحصاری به TechCrunch گفت. با جمع‌آوری 1.25 میلیون دلار سرمایه پیش‌بذر از Panache Ventures و Y Combinator در سال گذشته، این جمع کل سرمایه‌های Reworkd به 4 میلیون دلار می‌رسد.

هوش مصنوعی که می‌تواند از اینترنت استفاده کند

بلافاصله پس از تشکیل Reworkd و انتقال به سان فرانسیسکو، تیم روهان پاندی را به عنوان مهندس تحقیقاتی بنیانگذار استخدام کرد. او در حال حاضر در AGI House SF، یکی از پرطرفدارترین خانه‌های هکرها در عصر هوش مصنوعی، زندگی می‌کند. یک سرمایه‌گذار پاندی را به عنوان "یک آزمایشگاه تحقیقاتی یک نفره در Reworkd" توصیف کرد.

"ما خود را به عنوان تحقق این رویای 30 ساله وب معنایی می‌بینیم،" پاندی در مصاحبه‌ای با TechCrunch گفت، اشاره دارد به دیدگاه تیم برنرز لی، مخترع وب جهانی، که در آن کامپیوترها می‌توانند تمام اینترنت را بخوانند. "حتی اگر برخی وب‌سایت‌ها فاقد نشانه‌گذاری باشند، LLMها می‌توانند وب‌سایت‌ها را به همان روش‌هایی که انسان‌ها می‌توانند درک کنند، به طوری که ما می‌توانیم عملاً هر وب‌سایتی را به عنوان یک API افشاء کنیم. بنابراین به نوعی، Reworkd مانند لایه API جهانی برای اینترنت است."

Reworkd می‌گوید که آن‌ها می‌توانند نیازهای داده‌ای مشتریان را در نوک بلند دریافت کنند، به این معنی که عوامل هوش مصنوعی آن‌ها به طور خاص برای خراشیدن هزاران وب‌سایت کوچکتر که رقبا به آن‌ها اغلب نمی‌پردازند، خوب هستند. دیگران، مانند Bright Data، خراشنده‌های ساخته شده برای وب‌سایت‌های بزرگ مانند LinkedIn یا Amazon دارند، اما ممکن است برای یک انسان به دردسر ایجاد خراشنده برای هر وب‌سایت کوچک نمی‌ارزد. Reworkd این نگرانی را برطرف می‌کند، اما ممکن است نگرانی‌های دیگری را ایجاد کند.

دقیقاً داده‌های وب «عمومی» چیست؟

اگرچه وب‌خراش‌ها دهه‌ها وجود داشته‌اند، اما در عصر هوش مصنوعی بحث‌برانگیز شده‌اند. خراش گسترده داده‌های عظیم باعث افتادن OpenAI و Perplexity به مشکلات قانونی شده است: سازمان‌ها و اصلی‌های خبری ادعا می‌کنند که شرکت‌های هوش مصنوعی مالکیت معنوی را از پشت دیوارهای پرداخت استخراج کرده‌اند و بدون پرداخت آن را بازتولید کرده‌اند. Reworkd برای جلوگیری از این مسائل احتیاط‌هایی را اتخاذ کرده است.

«ما آن را به عنوان افزایش دسترسی به اطلاعات عمومی موجود می‌بینیم،» آسیم شریستا، بنیانگذار و مدیرعامل Reworkd، در مصاحبه‌ای با TechCrunch گفت. «ما فقط اطلاعاتی را که به صورت عمومی در دسترس است می‌دهید؛ ما از پشت دیوارهای ورود عبور نمی‌کنیم یا چیزی شبیه به آن.»

یک قدم بیشتر، Reworkd می‌گوید که از خراشیدن اخبار به طور کامل اجتناب می‌کند و در انتخاب اینکه با چه کسانی کار کند، انتخاب می‌کند. واتکینز، مدیر ارشد فناوری شرکت، می‌گوید ابزارهای بهتری برای تجمیع محتوای خبری در جای دیگر وجود دارد و این تمرکز آن‌ها نیست.

به عنوان نمونه‌ای از آنچه هست، Reworkd کار خود را با Axis، شرکتی که به تیم‌های سیاست‌ گذاشتن کمک می‌کند تا با مقررات دولت تطبیق کنند، توصیف کرد. Axis از هوش مصنوعی Reworkd استفاده می‌کند تا داده‌ها را از هزاران اسناد مقررات دولتی برای بسیاری از کشورهای اتحادیه اروپا استخراج کند. سپس Axis یک مدل AI بر اساس این داده‌ها آموزش و تنظیم می‌کند و آن را به عنوان محصول به مشتریان ارائه می‌دهد.

شروع یک شرکت وب‌خراشی این روزها می‌تواند به منظور وارد شدن به قلمروی خطرناک در نظر گرفته شود، به گفته آرون فیسک، شریک در شرکت حقوقی گوندرسون دتمیر در سیلیکون ولی. منظره در حال حاضر کمی سیال است و هنوز حکم قاطعی در مورد چقدر داده‌های وب «عمومی» برای مدل‌های AI وجود ندارد. با این حال، فیسک می‌گوید رویکرد Reworkd، جایی که مشتریان تصمیم می‌گیرند که چه وب‌سایت‌هایی را خراش دهند، ممکن است آن‌ها را از مسئولیت قانونی محافظت کند.

«مثل این است که آن‌ها دستگاه کپی را اختراع کرده‌اند، و استفاده یکی برای تولید نسخه‌هایی که به معاش اقتصادی بسیار ارزشمند بود اما از لحاظ قانونی بسیار قابل تردید است،» فیسک در مصاحبه‌ای با TechCrunch گفت. «این نیست که خراش‌های وب که به شرکت‌های AI خدمات می‌دهد لزوماً پرخطر است، اما همکاری با شرکت‌های AI که واقعاً به جمع‌آوری محتوای دارای حق‌تکثیری علاقمند هستند، شاید موضوع باشد.»

به همین دلیل است که Reworkd دقت می‌کند که با چه کسانی کار می‌کند. وب‌خراش‌های زیادی در پرونده‌های احتمالی نقض حق‌تکثیر مربوط به AI تاکنون از سرزنش مبری شده‌اند. در پرونده OpenAI، فیسک اشاره می‌کند که نیویورک تایمز از وب‌خراشی که مقالاتش را جمع‌آوری کرده بود شکایت نکرد، بلکه از شرکتی که ادعا می‌شد کارش را بازتولید کرده بود شکایت کرد. اما حتی آنجا، هنوز تصمیم‌گیری نشده است که آیا کاری که OpenAI انجام داده است واقعاً نقض حق‌تکثیر بوده است.

شواهد بیشتری وجود دارد که وب‌خراش‌ها در دوره اوج هوش مصنوعی از لحاظ قانونی در وضعیت واضحی قرار دارند. یکی از دادگاه‌های اخیراً در دادخواست Bright Data که از پروفایل‌های فیس‌بوک و اینستاگرام خراش کرده بود علیه متا حکم داد. یک نمونه در پرونده دادگاه دیتاستی از 615 میلیون رکورد از داده‌های کاربر اینستاگرام بود که Bright Data آن را برای 860,000 دلار می‌فروشد. متا از شرکت شکایت کرد و ادعا کرد که این نقض شرایط خدمات آن است. اما دادگاه حکم داد که این داده‌ها عمومی هستند و بنابراین برای خراشیدن در دسترس است.

سرمایه‌گذاران بر این باورند که Reworkd با بزرگان برابری می‌کند

Reworkd نام‌های بزرگی را به عنوان سرمایه‌گذاران اولیه جذب کرده است، از Y Combinator و پل گراهام تا دنیل گراس و نات فریدمن. برخی سرمایه‌گذاران می‌گویند که این به این دلیل است که فناوری Reworkd بهبود پیدا می‌کند و ارزان‌تر می‌شود زیرا مدل‌های جدید همراه با پیشرفت می‌شوند. این استارتاپ می‌گوید که GPT-4o OpenAI در حال حاضر بهترین برای تولید کد چند-مدالی است و بسیاری از فناوری Reworkd تا چند ماه پیش امکان‌پذیر نبود.

«اگر سعی کنیم با نرخ پیشرفت فناوری رقابت کنیم — نه بر روی آن بسازیم — پس فکر می‌کنم که به عنوان یک بنیانگذار سخت خواهید داشت،» ویت لی از General Catalyst به TechCrunch گفت. «Reworkd دارای ذهنیت است که راه‌حل آن‌ها بر اساس نرخ پیشرفت بنا شده است.»

Reworkd در حال ساخت عوامل هوش مصنوعی است که به یک شکاف خاص در بازار پاسخ می‌دهند؛ شرکت‌ها به داده‌های بیشتری نیاز دارند زیرا AI به سرعت پیشرفت می‌کند. همان‌طور که شرکت‌های بیشتری مدل‌های AI مخصوص به کسب‌وکار خود را می‌سازند، Reworkd می‌تواند مشتریان بیشتری جذب کند. تنظیم دقیق مدل‌ها نیازمند داده‌های باکیفیت، ساختاریافته و زیاد است.

Reworkd می‌گوید رویکرد آن‌ها «خود-شفابخش» است، به این معنی که وب‌خراش‌های آن‌ها به دلیل به‌روزرسانی صفحه وب خراب نخواهند شد. استارتاپ می‌گوید از مشکلات توهم‌آفرینی که به طور سنتی با مدل‌های AI مرتبط است اجتناب می‌کند، زیرا عوامل Reworkd در حال تولید کد برای خراشیدن یک وب‌سایت هستند. ممکن است هوش مصنوعی اشتباه کند و داده‌های نادرست از یک وب‌سایت بگیرد، اما تیم Reworkd ایجاد کرده‌اند B anana-lyzer ، یک چارچوب ارزیابی منبع باز، برای ارزیابی منظم دقت آن.

Reworkd حقوق بالایی ندارد — تیم فقط چهار نفر است — اما باید هزینه‌های بالای استنتاج برای اجرای عوامل هوش مصنوعی خود را بپردازد. استارتاپ انتظار دارد که قیمت‌گذاری آن به طور فزاینده‌ای رقابتی شود زیرا این هزینه‌ها به روند کاهش می‌روند. OpenAI به تازگی GPT-4o mini را منتشر کرد، نسخه کوچکتر از مدل پیشرو خود که معیارهای رقابتی دارد. نوآوری‌هایی مانند این می‌توانند Reworkd را رقابتی‌تر کنند.

پل گراهام و AI Grant به درخواست TechCrunch برای اظهار نظر پاسخ ندادند.

توسط
Tech Crunch
منبع
Tech Crunch
نمایش بیشتر

اخبار مرتبط

بازگشت به بالا