تکنولوژی

مدل جدید هوش مصنوعی LongWriter: قادر به تولید متون 10,000 کلمه‌ای

مدل‌های زبانی بزرگ (LLM) نحوه عملکرد کسب‌و‌کارها را تغییر داده‌اند. اما یکی از مشکلات مهم این مدل‌ها طول خروجی متنی است که تولید می‌کنند. برای حل این مشکل، تیمی از دانشگاه Tsinghua و شرکت Zhipu AI مدل LongWriter را توسعه داده‌اند که قادر است متونی تا 10,000 کلمه تولید کند. این مدل با استفاده از مجموعه داده‌ای به نام LongWriter-6k آموزش داده شده و کد منبع باز آن در GitHub منتشر شده است.

مدل‌های زبانی بزرگ (LLMs) نحوه عملکرد کسب‌و‌کارها را این روزها تغییر داده‌اند.

این ابزارهای قدرتمند به انسان‌ها قدرت کرده‌اند تا فناوری را به شیوه‌ای بی‌سابقه کاوش کنند. اما مدل‌های زبانی بزرگ نیز مشکلات خاص خود را دارند.

یکی از مشکلات مهم مدل‌های زبانی بزرگ طول خروجی متنی است که تولید می‌کنند. مدل‌های زبانی بزرگ فعلی ادعا می‌کنند که توانایی پردازش ورودی‌هایی تا 100,000 کلمه را دارند، اما در تولید خروجی‌هایی که از طول معقولی معادل 2,000 کلمه تجاوز کند، مشکل دارند.

برای حل این مشکل، تیمی از محققان هوش مصنوعی در دانشگاه Tsinghua، همراه با همکارانی از شرکت Zhipu AI، مدل زبانی بزرگی به نام LongWriter را توسعه داده‌اند.

قادر به تولید پاسخ‌های بلند

تیم ادعا می‌کند که این مدل زبانی بزرگ می‌تواند خروجی متن تا 10,000 کلمه تولید کند.

این گروه مقاله‌ای را توصیف تلاش‌هایشان و مدل زبانی جدیدشان LongWriter نوشته‌اند، که در سرور پیش‌چاپ arXiv در دسترس است.

همان‌طور که مدل‌های زبانی بزرگ جریان اصلی شده‌اند، بسیاری متوجه شده‌اند که نمی‌توانند پاسخ‌های بسیار طولانی مانند کتاب‌های کامل یا دست‌نوشته‌ها تولید کنند. محدودیت فعلی حدود 2,000 کلمه به نظر می‌رسد.

محققان پیشنهاد می‌دهند که این به دلیل آموزش دیدن آن‌ها روی اسناد کوتاه است. در تلاش جدیدشان، آن‌ها متوجه شدند که اگر مدل‌های زبانی بزرگ کمی تغییر کنند و با استفاده از اسناد طولانی‌تر آموزش ببینند، می‌توانند اسناد طولانی‌تری تولید کنند.

آزمایش ایده

برای آزمایش ایده خود، تیم‌های تحقیقاتی ابتدا یک مدل زبانی بزرگ با 9 میلیارد پارامتر را با استفاده از یک مجموعه داده معمولی آموزش دادند که شامل اسنادی بود که بیشتر کمتر از 2,000 کلمه داشتند.

همان‌طور که انتظار می‌رفت، وقتی از آن پرسیده شد، می‌توانست تنها متونی با حد اکثر 2,000 کلمه ایجاد کند.

سپس تیم یک مدل زبانی بزرگ سنتی را با استفاده از یک خط لوله‌ای که آن را AgentWrite نامیدند تغییر دادند تا مواد آموزشی را به زیر وظایف در فرآیند تجزیه کند.

سپس مجموعه داده‌ای به نام LongWriter-6k را ایجاد کردند که حاوی 6,000 سند نوشته شده به طول‌هایی بین 2,000 تا 32,000 کلمه بود.

سپس مدل زبانی بزرگ تغییر یافته را با استفاده از مجموعه داده LongWriter-6k آموزش دادند و متوجه شدند که انجام این کار طول کلمات اسنادی که می‌تواند تولید کند را به حدود 10,000 کلمه افزایش می‌دهد.

قابل استفاده در انواع زمینه‌ها

در بررسی اسناد طولانی تازه تولید شده توسط مدل زبانی بزرگ، تیم آن‌ها را منسجم و قابل استفاده در انواع زمینه‌ها یافت.

آن‌ها کد منبع باز مدل خود را در GitHub منتشر کرده‌اند تا دیگران بتوانند بر اساس آنچه تیم در چین انجام داده است، استفاده کنند.

همچنین یک ویدئو منتشر کرده‌اند که نشان می‌دهد LongWriter یک راهنمای توریستی 10,000 کلمه‌ای برای افرادی که قصد سفر به چین را دارند تولید می‌کند.

محققان اذعان دارند که ملاحظات اخلاقی باید مدنظر قرار گیرند، اکنون که یافته شده است مدل‌های زبانی بزرگ می‌توانند مقاله‌های پژوهشی کامل، کتاب‌ها، دست‌نوشته‌ها یا حتی شاید فیلمنامه‌های فیلم تولید کنند.

این کار نشان می‌دهد که مدل‌های زبانی بزرگ موجود با متن‌های طولانی‌ زمینهٔ خروجی بالقوهٔ بزرگی دارند - تنها چیزی که نیاز دارید داده‌هایی با خروجی طولانی‌تر در هنگام تنظیم مدل است تا این توانایی را باز کنید.

با درک محدودیت‌ها و استفاده از روش‌های مسئولانه، انسان‌ها می‌توانند از قدرت مدل‌های زبانی بزرگ بهره‌برداری کنند در حالی که خطرات بالقوه را کاهش دهند. در مباحث آینده، به دنیای مدل‌های زبانی بزرگ عمیق‌تر خواهیم پرداخت و تکنیک‌هایی برای بهبود قابلیت‌های آن‌ها بررسی خواهیم کرد.

توسط
Interesting Engineering
منبع
Interesting Engineering
نمایش بیشتر

اخبار مرتبط

بازگشت به بالا