پس از موفقیت AgentGPT، Reworkd به عوامل هوش مصنوعی برای وبخراشی متمایل شد
بنیانگذاران Reworkd سال گذشته با AgentGPT که یک ابزار رایگان برای ساخت عوامل هوش مصنوعی است و در عرض یک هفته بیش از 100,000 کاربر روزانه جذب کرد، در GitHub به شهرت رسیدند. این موضوع باعث شد آنها جایی در گروه تابستانی 2023 Y Combinator کسب کنند، اما بنیانگذاران به سرعت متوجه شدند که ساخت عوامل عمومی هوش مصنوعی بسیار گسترده است. بنابراین اکنون Reworkd یک شرکت وبخراشی است که به طور خاص عوامل هوش مصنوعی برای استخراج دادههای ساختاریافته از وب عمومی میسازد.
AgentGPT یک رابط ساده در مرورگر ارائه میداد که کاربران میتوانستند عوامل هوش مصنوعی خودکار ایجاد کنند. به زودی، همه درباره عوامل به عنوان آینده رایانش صحبت میکردند.
وقتی این ابزار موفق شد، آسیم شریستا، آدام واتکینز و سریجان سوبدی هنوز در کانادا زندگی میکردند و Reworkd وجود نداشت. افزایش وسیع کاربران آنها را شگفتزده کرد؛ سوبدی، مدیر اجرایی Reworkd اکنون گفت هزینه ابزار در روز 2000 دلار در تماسهای API بود. به همین دلیل، آنها باید سریعاً Reworkd را ایجاد کرده و بودجه کسب کنند. یکی از محبوبترین کاربردهای AgentGPT ساخت وبخراشها بود، وظیفهای نسبتاً ساده اما با حجم بالا، بنابراین Reworkd این تمرکز واحد را ایجاد کرد.
وبخراشها در عصر هوش مصنوعی بیقیمت شدهاند. دلیل شماره یک استفاده از دادههای وب عمومی در سال 2024 ساخت مدلهای هوش مصنوعی است، طبق گزارش جدید Bright Data. مشکل این است که وبخراشها به طور سنتی توسط انسانها ساخته میشوند و باید برای صفحات وب خاص سفارشی شوند، که این امر هزینهبر است. اما عوامل هوش مصنوعی Reworkd میتوانند با تعداد کمتری از انسانها بیشتر وب را خراش دهند.
مشتریان میتوانند به Reworkd فهرستی از صدها یا حتی هزاران وبسایت برای خراش دادن بدهند و سپس انواع دادههایی که به آنها علاقهمندند را مشخص کنند. سپس عوامل هوش مصنوعی Reworkd با استفاده از تولید کد چند-مدالی این را به دادههای ساختاریافته تبدیل میکنند. عوامل کد یونیکی برای خراش دادن هر وبسایت تولید میکنند و آن دادهها را برای استفاده مشتریان استخراج میکنند.
به عنوان مثال، فرض کنید شما میخواهید آمار هر بازیکن NFL را داشته باشید، اما هر وبسایت تیم یک چیدمان متفاوت دارد. به جای ساختن خراشنده برای هر وبسایت، عوامل Reworkd این کار را با توجه به لینکها و توضیحات دادههایی که میخواهید استخراج کنید، انجام میدهند. با 32 تیم، این میتواند ساعتها زمان صرفهجویی کند — اما اگر 1000 تیم وجود داشته باشد، میتواند هفتهها زمان را صرفهجویی کند.
Reworkd به تازگی 2.75 میلیون دلار سرمایه اولیه از پل گراهام، AI Grant (شتابدهنده استارتاپ نات فریدمن و دنیل گروس)، SV Angel، General Catalyst و Panache Ventures و دیگران جمعآوری کرده است، این استارتاپ به طور انحصاری به TechCrunch گفت. با جمعآوری 1.25 میلیون دلار سرمایه پیشبذر از Panache Ventures و Y Combinator در سال گذشته، این جمع کل سرمایههای Reworkd به 4 میلیون دلار میرسد.
هوش مصنوعی که میتواند از اینترنت استفاده کند
بلافاصله پس از تشکیل Reworkd و انتقال به سان فرانسیسکو، تیم روهان پاندی را به عنوان مهندس تحقیقاتی بنیانگذار استخدام کرد. او در حال حاضر در AGI House SF، یکی از پرطرفدارترین خانههای هکرها در عصر هوش مصنوعی، زندگی میکند. یک سرمایهگذار پاندی را به عنوان "یک آزمایشگاه تحقیقاتی یک نفره در Reworkd" توصیف کرد.
"ما خود را به عنوان تحقق این رویای 30 ساله وب معنایی میبینیم،" پاندی در مصاحبهای با TechCrunch گفت، اشاره دارد به دیدگاه تیم برنرز لی، مخترع وب جهانی، که در آن کامپیوترها میتوانند تمام اینترنت را بخوانند. "حتی اگر برخی وبسایتها فاقد نشانهگذاری باشند، LLMها میتوانند وبسایتها را به همان روشهایی که انسانها میتوانند درک کنند، به طوری که ما میتوانیم عملاً هر وبسایتی را به عنوان یک API افشاء کنیم. بنابراین به نوعی، Reworkd مانند لایه API جهانی برای اینترنت است."
Reworkd میگوید که آنها میتوانند نیازهای دادهای مشتریان را در نوک بلند دریافت کنند، به این معنی که عوامل هوش مصنوعی آنها به طور خاص برای خراشیدن هزاران وبسایت کوچکتر که رقبا به آنها اغلب نمیپردازند، خوب هستند. دیگران، مانند Bright Data، خراشندههای ساخته شده برای وبسایتهای بزرگ مانند LinkedIn یا Amazon دارند، اما ممکن است برای یک انسان به دردسر ایجاد خراشنده برای هر وبسایت کوچک نمیارزد. Reworkd این نگرانی را برطرف میکند، اما ممکن است نگرانیهای دیگری را ایجاد کند.
دقیقاً دادههای وب «عمومی» چیست؟
اگرچه وبخراشها دههها وجود داشتهاند، اما در عصر هوش مصنوعی بحثبرانگیز شدهاند. خراش گسترده دادههای عظیم باعث افتادن OpenAI و Perplexity به مشکلات قانونی شده است: سازمانها و اصلیهای خبری ادعا میکنند که شرکتهای هوش مصنوعی مالکیت معنوی را از پشت دیوارهای پرداخت استخراج کردهاند و بدون پرداخت آن را بازتولید کردهاند. Reworkd برای جلوگیری از این مسائل احتیاطهایی را اتخاذ کرده است.
«ما آن را به عنوان افزایش دسترسی به اطلاعات عمومی موجود میبینیم،» آسیم شریستا، بنیانگذار و مدیرعامل Reworkd، در مصاحبهای با TechCrunch گفت. «ما فقط اطلاعاتی را که به صورت عمومی در دسترس است میدهید؛ ما از پشت دیوارهای ورود عبور نمیکنیم یا چیزی شبیه به آن.»
یک قدم بیشتر، Reworkd میگوید که از خراشیدن اخبار به طور کامل اجتناب میکند و در انتخاب اینکه با چه کسانی کار کند، انتخاب میکند. واتکینز، مدیر ارشد فناوری شرکت، میگوید ابزارهای بهتری برای تجمیع محتوای خبری در جای دیگر وجود دارد و این تمرکز آنها نیست.
به عنوان نمونهای از آنچه هست، Reworkd کار خود را با Axis، شرکتی که به تیمهای سیاست گذاشتن کمک میکند تا با مقررات دولت تطبیق کنند، توصیف کرد. Axis از هوش مصنوعی Reworkd استفاده میکند تا دادهها را از هزاران اسناد مقررات دولتی برای بسیاری از کشورهای اتحادیه اروپا استخراج کند. سپس Axis یک مدل AI بر اساس این دادهها آموزش و تنظیم میکند و آن را به عنوان محصول به مشتریان ارائه میدهد.
شروع یک شرکت وبخراشی این روزها میتواند به منظور وارد شدن به قلمروی خطرناک در نظر گرفته شود، به گفته آرون فیسک، شریک در شرکت حقوقی گوندرسون دتمیر در سیلیکون ولی. منظره در حال حاضر کمی سیال است و هنوز حکم قاطعی در مورد چقدر دادههای وب «عمومی» برای مدلهای AI وجود ندارد. با این حال، فیسک میگوید رویکرد Reworkd، جایی که مشتریان تصمیم میگیرند که چه وبسایتهایی را خراش دهند، ممکن است آنها را از مسئولیت قانونی محافظت کند.
«مثل این است که آنها دستگاه کپی را اختراع کردهاند، و استفاده یکی برای تولید نسخههایی که به معاش اقتصادی بسیار ارزشمند بود اما از لحاظ قانونی بسیار قابل تردید است،» فیسک در مصاحبهای با TechCrunch گفت. «این نیست که خراشهای وب که به شرکتهای AI خدمات میدهد لزوماً پرخطر است، اما همکاری با شرکتهای AI که واقعاً به جمعآوری محتوای دارای حقتکثیری علاقمند هستند، شاید موضوع باشد.»
به همین دلیل است که Reworkd دقت میکند که با چه کسانی کار میکند. وبخراشهای زیادی در پروندههای احتمالی نقض حقتکثیر مربوط به AI تاکنون از سرزنش مبری شدهاند. در پرونده OpenAI، فیسک اشاره میکند که نیویورک تایمز از وبخراشی که مقالاتش را جمعآوری کرده بود شکایت نکرد، بلکه از شرکتی که ادعا میشد کارش را بازتولید کرده بود شکایت کرد. اما حتی آنجا، هنوز تصمیمگیری نشده است که آیا کاری که OpenAI انجام داده است واقعاً نقض حقتکثیر بوده است.
شواهد بیشتری وجود دارد که وبخراشها در دوره اوج هوش مصنوعی از لحاظ قانونی در وضعیت واضحی قرار دارند. یکی از دادگاههای اخیراً در دادخواست Bright Data که از پروفایلهای فیسبوک و اینستاگرام خراش کرده بود علیه متا حکم داد. یک نمونه در پرونده دادگاه دیتاستی از 615 میلیون رکورد از دادههای کاربر اینستاگرام بود که Bright Data آن را برای 860,000 دلار میفروشد. متا از شرکت شکایت کرد و ادعا کرد که این نقض شرایط خدمات آن است. اما دادگاه حکم داد که این دادهها عمومی هستند و بنابراین برای خراشیدن در دسترس است.
سرمایهگذاران بر این باورند که Reworkd با بزرگان برابری میکند
Reworkd نامهای بزرگی را به عنوان سرمایهگذاران اولیه جذب کرده است، از Y Combinator و پل گراهام تا دنیل گراس و نات فریدمن. برخی سرمایهگذاران میگویند که این به این دلیل است که فناوری Reworkd بهبود پیدا میکند و ارزانتر میشود زیرا مدلهای جدید همراه با پیشرفت میشوند. این استارتاپ میگوید که GPT-4o OpenAI در حال حاضر بهترین برای تولید کد چند-مدالی است و بسیاری از فناوری Reworkd تا چند ماه پیش امکانپذیر نبود.
«اگر سعی کنیم با نرخ پیشرفت فناوری رقابت کنیم — نه بر روی آن بسازیم — پس فکر میکنم که به عنوان یک بنیانگذار سخت خواهید داشت،» ویت لی از General Catalyst به TechCrunch گفت. «Reworkd دارای ذهنیت است که راهحل آنها بر اساس نرخ پیشرفت بنا شده است.»
Reworkd در حال ساخت عوامل هوش مصنوعی است که به یک شکاف خاص در بازار پاسخ میدهند؛ شرکتها به دادههای بیشتری نیاز دارند زیرا AI به سرعت پیشرفت میکند. همانطور که شرکتهای بیشتری مدلهای AI مخصوص به کسبوکار خود را میسازند، Reworkd میتواند مشتریان بیشتری جذب کند. تنظیم دقیق مدلها نیازمند دادههای باکیفیت، ساختاریافته و زیاد است.
Reworkd میگوید رویکرد آنها «خود-شفابخش» است، به این معنی که وبخراشهای آنها به دلیل بهروزرسانی صفحه وب خراب نخواهند شد. استارتاپ میگوید از مشکلات توهمآفرینی که به طور سنتی با مدلهای AI مرتبط است اجتناب میکند، زیرا عوامل Reworkd در حال تولید کد برای خراشیدن یک وبسایت هستند. ممکن است هوش مصنوعی اشتباه کند و دادههای نادرست از یک وبسایت بگیرد، اما تیم Reworkd ایجاد کردهاند B anana-lyzer ، یک چارچوب ارزیابی منبع باز، برای ارزیابی منظم دقت آن.
Reworkd حقوق بالایی ندارد — تیم فقط چهار نفر است — اما باید هزینههای بالای استنتاج برای اجرای عوامل هوش مصنوعی خود را بپردازد. استارتاپ انتظار دارد که قیمتگذاری آن به طور فزایندهای رقابتی شود زیرا این هزینهها به روند کاهش میروند. OpenAI به تازگی GPT-4o mini را منتشر کرد، نسخه کوچکتر از مدل پیشرو خود که معیارهای رقابتی دارد. نوآوریهایی مانند این میتوانند Reworkd را رقابتیتر کنند.
پل گراهام و AI Grant به درخواست TechCrunch برای اظهار نظر پاسخ ندادند.