وبسایت ورج میگوید اوپنایآی از «نمونه اولیه تحقیقاتی» یک عاملیت هوش مصنوعی به نام اوپراتور (Operator) رونمایی کرده است که امکان «مراجعه به وب و انجام وظایفی برای شما» را دارد.
به گزارش پیوست، اوپنایآی میگوید این عاملیت هوش مصنوعی که در مرحله اول تنها برای مشترکان ChatGPT Pro در ایالات متحده عرضه میشود میتواند «با استفاده از مرورگر خودش، به یک صفحه وب نگاه کند و با نوشتن، کلیک کردن و اسکرول» از آن صفحه استفاده کند.
این قابلیت اولین بار در اختیار کاربران اشتراک ۲۰۰ دلاری ChatGPT Pro قرار میگیرد و احتمالا در آینده شاهد عرضه آن در دیگر بخشهای جهان خواهیم بود.
اوپراتور برای فعالیت خود از یک مدل عاملیتی استفاده از کامپیوتر یا «Computer-Using Agent» استفاده میکند که ترکیبی از قابلیت دید GPT-4o با «استدلال پیشرفته از طریق یادگیری تقویتی» است و در نتیجه میتواند با رابط کاربری گرافیکی (GUI) ارتباط بگیرد. طبق گفته اوپنایآی «اوپراتور میتوان (از طری اسکرینشاتها) ببیند و (با استفاده از تمامی اقدامات ممکن برای یک موس و کیبورد) با یک مرورگر ارتباط بگیرد و در نتیجه میتواند بدون نیاز به الحاقات API اقداماتی را در فضای وب انجام دهد.»
نحوه عملکرد Operator
این عاملیت همانطور که گفتیم از عاملیت استفاده از کامپیوتر استفاده میکند و نحوه استفاده از آن چند مرحله دارد. ابتدا این ابزار برای مشاهده صفحه نمایش شما اسکرین شات میگیرد، سپس تصاویر را (با استفاده از توانمندیهای دیداری GPT-4o و یادگیری تقویتی) تجزیهتحلیل میکند و دادهها خام پیکسلی پردازش میشوند.
سپس در مرحله بعدی اوپراتور مشخص میکند که به چه اقدامی نیاز است و ورودیهای مجازی را وارد کامپیوتر خواهد کرد. طراحی این سیستم به صورت یک حلقه تکرار شونده باعث میشود تا امکان پشت سر گذاشتن خطاها را در انجام وظایف پیچیده داشته باشد.
اوپراتور همچنین هنگام فعالیت خود یک پنجره کوچک از اقدامات خود را برای کاربر به نمایش میگذارد. بهترین بازدهی این عاملیت هوش مصنوعی طبق اعلام اوپنایآی برای وظایف تکراری اینترنتی مثل ساخت لیستهای خرید یا پلیلیست است. این ابزار در حال حاضر در رابطهای کاربری نا آشنا مثل جدول و تقویم به مشکل میخورد و در وظایف پیچیده مثل اصلاح متن با مشکلاتی مواجه است (نرخ موفقیت ۴۰ درصدی.)
نرخ موفقیت Operator
اوپنایآی میگوید این ابزار در بنچمارک WebVoyager که سایتهای زندهای مثل گوگل مپ و آمازون را آزمایش میکند به نرخ موفقیت ۸۷ درصدی رسیده است. در بنچمارک دیگری به نام WebArena که از سایتهای آزمایش آفلاین برای آموزش عاملیتهای خودمختار استفاده میکند، نرخ موفقیت اوپراتور به ۵۸.۱ سقوط کرد.
همچنین در بنچمارک دیگری به نام OSWorld که به وظایف سیستم عاملی مربوط است نیز این عاملیت نرخ موفقیت ۳۸.۱ درصدی دارد که بهتر از مدلهای قبلی است اما همچنان فاصله زیادی با موفقیت ۷۲.۴ درصدی انسانها دارد.
اوپراتور به لطف قدرت استدلال امکان «خود اصلاحی» دارد و در صورتی که در یک مرحله گیر کند، ادامه کار را به کاربر واگذار میکند. این عاملیت همچنین در صورتی که وبسایت خواستار اطلاعات حساس مثل اطلاعات ورود به حساب باشد از کاربر درخواست میکند تا این مرحله خودش پشت سر بگذارد و همچنین برای اقداماتی مثل ارسال یک ایمیل «باید» از کاربر اجازه بگیرد. اوپنایآی میگوید اوپراتور به گونهای طراحی شده تا «از درخواستهای خطرناک اجتناب و محتوای غیرمجاز را مسدود کند.»
طبق اعلام اوپنایآی، این شرکت برای «رفع نیازهای جهان واقعی و همچنین احترام به هنجارهای موجود» با شرکتهایی مثل DoorDash، Instacart، Open Table، Priceline، StubHub، Thumbtack و اوبر همکار میکند. با این حال این شرکت هشدار داده است که هنوز تضمینی برای عملکرد درست تمامی بخشهای این ابزار وجود ندارد و ممکن است این ابزار با مشکلاتی در کارهای پیچیده مواجه شود.
این شرکت برنامه دارد تا اوپراتور را برای کاربران اشتراک Plus، Team و Enterprise نیز فعال کند و این توانمندیها به ChatGPT نیز اضافه شوند.