مدل جدید هوش مصنوعی LongWriter: قادر به تولید متون 10,000 کلمهای
مدلهای زبانی بزرگ (LLMs) نحوه عملکرد کسبوکارها را این روزها تغییر دادهاند.
این ابزارهای قدرتمند به انسانها قدرت کردهاند تا فناوری را به شیوهای بیسابقه کاوش کنند. اما مدلهای زبانی بزرگ نیز مشکلات خاص خود را دارند.
یکی از مشکلات مهم مدلهای زبانی بزرگ طول خروجی متنی است که تولید میکنند. مدلهای زبانی بزرگ فعلی ادعا میکنند که توانایی پردازش ورودیهایی تا 100,000 کلمه را دارند، اما در تولید خروجیهایی که از طول معقولی معادل 2,000 کلمه تجاوز کند، مشکل دارند.
برای حل این مشکل، تیمی از محققان هوش مصنوعی در دانشگاه Tsinghua، همراه با همکارانی از شرکت Zhipu AI، مدل زبانی بزرگی به نام LongWriter را توسعه دادهاند.
قادر به تولید پاسخهای بلند
تیم ادعا میکند که این مدل زبانی بزرگ میتواند خروجی متن تا 10,000 کلمه تولید کند.
این گروه مقالهای را توصیف تلاشهایشان و مدل زبانی جدیدشان LongWriter نوشتهاند، که در سرور پیشچاپ arXiv در دسترس است.
همانطور که مدلهای زبانی بزرگ جریان اصلی شدهاند، بسیاری متوجه شدهاند که نمیتوانند پاسخهای بسیار طولانی مانند کتابهای کامل یا دستنوشتهها تولید کنند. محدودیت فعلی حدود 2,000 کلمه به نظر میرسد.
محققان پیشنهاد میدهند که این به دلیل آموزش دیدن آنها روی اسناد کوتاه است. در تلاش جدیدشان، آنها متوجه شدند که اگر مدلهای زبانی بزرگ کمی تغییر کنند و با استفاده از اسناد طولانیتر آموزش ببینند، میتوانند اسناد طولانیتری تولید کنند.
آزمایش ایده
برای آزمایش ایده خود، تیمهای تحقیقاتی ابتدا یک مدل زبانی بزرگ با 9 میلیارد پارامتر را با استفاده از یک مجموعه داده معمولی آموزش دادند که شامل اسنادی بود که بیشتر کمتر از 2,000 کلمه داشتند.
همانطور که انتظار میرفت، وقتی از آن پرسیده شد، میتوانست تنها متونی با حد اکثر 2,000 کلمه ایجاد کند.
سپس تیم یک مدل زبانی بزرگ سنتی را با استفاده از یک خط لولهای که آن را AgentWrite نامیدند تغییر دادند تا مواد آموزشی را به زیر وظایف در فرآیند تجزیه کند.
سپس مجموعه دادهای به نام LongWriter-6k را ایجاد کردند که حاوی 6,000 سند نوشته شده به طولهایی بین 2,000 تا 32,000 کلمه بود.
سپس مدل زبانی بزرگ تغییر یافته را با استفاده از مجموعه داده LongWriter-6k آموزش دادند و متوجه شدند که انجام این کار طول کلمات اسنادی که میتواند تولید کند را به حدود 10,000 کلمه افزایش میدهد.
قابل استفاده در انواع زمینهها
در بررسی اسناد طولانی تازه تولید شده توسط مدل زبانی بزرگ، تیم آنها را منسجم و قابل استفاده در انواع زمینهها یافت.
آنها کد منبع باز مدل خود را در GitHub منتشر کردهاند تا دیگران بتوانند بر اساس آنچه تیم در چین انجام داده است، استفاده کنند.
همچنین یک ویدئو منتشر کردهاند که نشان میدهد LongWriter یک راهنمای توریستی 10,000 کلمهای برای افرادی که قصد سفر به چین را دارند تولید میکند.
محققان اذعان دارند که ملاحظات اخلاقی باید مدنظر قرار گیرند، اکنون که یافته شده است مدلهای زبانی بزرگ میتوانند مقالههای پژوهشی کامل، کتابها، دستنوشتهها یا حتی شاید فیلمنامههای فیلم تولید کنند.
این کار نشان میدهد که مدلهای زبانی بزرگ موجود با متنهای طولانی زمینهٔ خروجی بالقوهٔ بزرگی دارند - تنها چیزی که نیاز دارید دادههایی با خروجی طولانیتر در هنگام تنظیم مدل است تا این توانایی را باز کنید.
با درک محدودیتها و استفاده از روشهای مسئولانه، انسانها میتوانند از قدرت مدلهای زبانی بزرگ بهرهبرداری کنند در حالی که خطرات بالقوه را کاهش دهند. در مباحث آینده، به دنیای مدلهای زبانی بزرگ عمیقتر خواهیم پرداخت و تکنیکهایی برای بهبود قابلیتهای آنها بررسی خواهیم کرد.