چالش‌های پیش‌روی هوش مصنوعی فارسی: از کمبود داده تا ملاحظات فرهنگی

در عصری که ابزارهای ارتباطی مبتنی بر هوش مصنوعی در حال تغییر نحوه تعامل کسب‌وکارها و افراد هستند، چت‌بات‌های فارسی به‌عنوان یک تغییردهنده بازی در بازار سرویس‌های فارسی‌زبان ظاهر شده‌اند. از بهبود تجربه خدمات مشتری گرفته تا خودکارسازی وظایف معمول، این چت‌بات‌ها شروع به تغییر شکل بخش‌های مختلف کرده‌اند.

به گزارش پیوست، با توجه به دسترسی محدود منابع فارسی چالش‌های چت‌بات‌های فارسی و اخرین محصولاتی که در این حوزه ارائه شده است بررسی می‌شود. تا برای پاسخگویی به تقاضای رو به رشد زبان فارسی به نوآوری‌های پیشرفته این مدل‌های زبانی پرداخته شود. راه‌حل‌های بومی‌سازی شده و هوشمند در محیط‌های شخصی و حرفه‌ای این مدل‌ها به عنوان راهکار عملی برای حل چالش‌های زبان فارسی طراحی شده‌ است.

حوزه آموزش‌دیده مدل‌های زبانی فارسی و وجه تمایز آن‌ها

امیرمحمد صالح‌اوف، مدیر تیم پردازش زبان طبیعی در مرکز تحقیقات هوش مصنوعی پارت

امیرمحمد صالح‌اوف، مدیر تیم پردازش زبان طبیعی در مرکز تحقیقات هوش مصنوعی پارت، گفت: «تمرکز ما در ابتدا روی مدل عمومی زبان فارسی است و بعضاً از داده‌های تخصصی نیز در آموزش این مدل استفاده شده است. هدف این است که کاربر بتواند در وهله اول سؤالات عمومی را از مدل بپرسد و جواب خود را دریافت کند.»

مرکز هوش مصنوعی پارت با این هدف مدل زبانی «توکا» با حجم داده ۵۰۰ گیگابایت معادل ۹۰ میلیارد توکن، مبتنی بر BERT large را توسعه داده و به صورت متن باز در اختیار کاربران قرار گرفته است. از طرف دیگر مدل زبانی بزرگ ۸ میلیارد پارامتری از گروه دُرنا نیز آموزش‌دیده و در میان LLM‌های فارسی عملکرد مطلوبی داشته است. از مزایای این مدل زبانی، استفاده از معماری جدید و فناوری‌های به‌روز دنیا، و نیز داده‌های باکیفیت در آموزش این مدل است. همچنین در تعاملات زبان بومی و پس‌زمینه‌های فرهنگی ایرانی و فارسی، عملکرد بهتری نسبت به محصولات مشابه خارجی دارد.

صالح‌اوف در مورد توسعه تخصصی مدل‌ها اشاره کرد: «توسعه مدل‌های تخصصی در برنامه بلندمدت ما قرار دارد تا در صورت نیاز بتوانیم مدل‌های زبانی تخصصی هر حوزه مانند حقوقی، پزشکی، مهندسی و… را توسعه بدهیم. در حال حاضر اولویت ما، توسعه یک مدل پایه زبانی است؛ چرا که همین مدل پایه سبب می‌شود مدل‌های تخصصی هم بتوانند قدرت و کیفیت خود را به خوبی به نمایش بگذارند. این مدل‌ها، به دلیل درک عمیق از زبان و فرهنگ فارسی، امکان ارائه خدمات با کیفیت و دقت بالاتر را به مشاغل فارسی‌زبان می‌دهند و در زمینه‌هایی که مدل‌های جهانی ضعف دارند، عملکرد بهتری دارند.»

محدودیت‌های زیرساختی در توسعه مدل‌های زبانی

آرش امینی، مدیر بخش تحقیق و توسعه حوزه هوش مصنوعی در مجموعه MCINext در مورد مدل‌های زبانی که همراه اول ارائه کرده است، گفت: «با توجه به زیرساخت‌هایی محدودی که در کشور داریم، تولید مدل‌های زبانی خیلی بزرگ عملا مقدور نیست. به علاوه، سرور کردن چنین مدل‌هایی نیز بسیار پرهزینه است. رویکرد مجموعه ما تولید یا بهینه‌سازی مدل‌های زبانی کوچک برای استفاده‌های مختلف در زبان فارسی است.»

امینی در مورد مدل‌های زبانی همراه اول توضیح داد: «مدل “سیلک” با ۱.۳ میلیارد پارامتر که از پایه (from scratch) در مجموعه خودمان تولید شده است؛ بسیار کوچک و در نتیجه با قابلیت خدمت آسان، اما محدود به زبان فارسی، با دانش نسبتا کم است . مدل “آهوران” که بر پایه Llama 3 با ۸ میلیارد پارامتر به صورت continual pretraining آموزش دیده است. این مدل چند زبانی دانش گسترده‌تری دارد و برای نیاز به متقاضیان فارسی زبان بهینه‌سازی شده است »

همچنین او اضافه کرد: «مدل “آوا” بر پایه مدل ۱۳ میلیارد پارامتری Aya به صورت fine tune ایجاد شده است. دو مدل اول مدل‌های زبانی کلی (general) هستند اما مدل سوم به منظور استفاده در حالت RAG بهینه شده است. مدل آوا، برای کاربردهایی در نظر گرفته شده است که پاسخ به سوالات کاربر باید از یک مجموعه داده مشخص (مانند مجموعه سوالات و جوابهای رایج یک شرکت) استخراج شود.»

امینی گفت: «داده‌های استفاده شده برای آموزش این مدل توسط تیم خودمان جمع‌آوری و تمیز شده است و شامل بخش‌های مختلفی از جمله داده‌های web، کتاب، سوال و جواب‌های مختلف می‌شود. در ابتدا مدل‌ها بدون جهت‌گیری نسبت به سوالات نامناسب ارائه شده بودند؛ اکنون مدل‌ها پس از فرآیند DPO (برای جلوگیری از پاسخ به سوالات نامناسب) دوباره جایگزین شدند و به صورت رایگان در دسترس کاربران هستند.»

راهکار برای چالش گویش‌ها و تنوع ساختار فارسی

امیرمحمد صالح‌اوف گفت: «زبان فارسی به طور کلی جزو زبان‌های Low-resource دنیا محسوب نمی‌شود و زبانی است که تعداد گوینده‌هایش و کسانی که از این زبان استفاده می‌کنند، کم نیست. در نتیجه، منبع‌های خوبی از زبان فارسی در دسترس است. ولی در واقعیت، کلیت زبان به شکلی نیست که این منابع به راحتی در دسترس محققان باشد.»

او اشاره کرد: « ما با توجه به تجربیاتی که در هوش مصنوعی پیدا کردیم، به این نتیجه رسیدیم که باید ابتدا روی گویش اصلی فارسی (که به معنای گویش معیار فارسی است) تمرکز کنیم و آن را به کیفیت مطلوبی برسانیم. در اولویت بعدی می‌توانیم به سراغ دیگر گویش‌ها برویم و درباره آنها تصمیم‌گیری کنیم.»

مدیر تیم پردازش زبان طبیعی مرکز هوش مصنوعی پارت اضافه کرد: «درباره ساختار زبانی، داده‌هایی که جمع‌آوری شده شامل هر دو ساختار محاوره و رسمی است. در نتیجه در مدل‌هایی که آموزش و توسعه داده‌ایم، از نظر گویش، گویش رسمی و از جهت تنوع ساختار، هر دو ساختار رسمی و محاوره را پشتیبانی می‌کنیم.»

آرش امینی،مدیر بخش تحقیق و توسعه حوزه هوش مصنوعی در مجموعه MCINext و مدیر فنی مجموعه MCILab

امینی، مدیر بخش تحقیق و توسعه حوزه هوش مصنوعی همراه اول، گفت: «در حال حاضر، مدل ما تنها به صورت متنی مورد استفاده قرار می‌گیرد؛ در نتیجه، گویش تاثیری در آن ندارد. هنوز مدل ما با ASR ترکیب نشده است، اما تولید ASR در مجموعه نیز در مراحل انتهایی است. در خصوص فهم ساختارهای مختلف زبان، از متون موجود در اینترنت استفاده کردیم و به ویژه از پرسش و پاسخ‌هایی که در سایت‌های مختلف وجود دارد، بهره بردیم. هنگامی که داده‌های آموزش تنوع زیادی از ساختارهای زبانی را در بر داشته باشند، مدل نیز به صورت خودکار ساختارها را یاد می‌گیرد. البته، در مدل‌های آهوران و آوا، به دلیل استفاده از مدل‌های اولیه آموزش‌دیده با زبان‌های مختلف کار راحت‌تر بود.»

ملاحظات آموزش مدل‌های زبانی

صالح‌اوف درمورد مدل‌های زبانی پارت، توضیح داد: «مجموعه داده‌هایی که برای توسعه مدل زبانی استفاده شده است شامل دیتاهای مختلفی است. این داده‌ها شامل دیتاهای متن باز (Open-source) است که به طور عمومی در دسترس قرار دارد و همچنین داده‌های اختصاصی که توسط تیم ما جمع‌آوری شده است. نکته قابل توجه این است که داده‌های مورد استفاده برای آموزش مدل به طور خام قابل استفاده نیستند و نیاز به تحلیل و بررسی دقیق دارند. بعضی از پیش‌پردازش‌ها نیاز است تا به یک مدل با کیفیت دست پیدا کنیم.»

پیرامون بحث ملاحظات، او ادامه داد: «شکی نیست که برخی ملاحظات باید در ساختار مدل زبانی فارسی لحاظ شود. یک دسته از ملاحظات شامل مواردی است که مختص فرهنگ و سیاست کشور ما است. هر کشور با توجه به قوانین خود، مباحث خاصی را مد نظر دارد که می‌بایست در مدل‌های زبانی رعایت شود. این موارد شامل مباحث سیاسی، اخلاقی و… است تا به سؤالات مطرح شده از مدل زبانی با توجه به سیاست‌های آن کشور پاسخ داده شود.»

امینی گفت: «در زمان تولید مدل‌های زبانی همراه اول، مجموعه داده‌های مناسبی مانند ترگمان وجود نداشت و خودمان شروع به جمع آوری و تمیز کردن داده‌های وب کردیم. در کنار آن اقدام به تهیه و خرید داده از مجموعه‌های مختلف هم کردیم. پس از آن، چندین مرحله آموزش مدل انجام دادیم و هربار با مشاهده جواب‌های نامناسب به مشکلاتی در داده‌های آموزش پی می‌بردیم و مجدد عیوب داده‌ها را برطرف می‌کردیم. اما واقعیت اینکه هیچگاه به داده کاملا ایده‌آل نرسیدیم.»

او گفت: «در نهایت حتی وقتی که مدل‌ها را رونمایی کردیم، در مواجهه با برخی سوالات چالشی سیاسی، مذهبی، ملی، اخلاقی و … با پاسخ‌هایی نامناسب مواجه می‌شدیم. مثلا، از مدل توقع می‌رود که در پاسخ به سوالاتی در خصوص راهنمایی برای دزدی پاسخ مشخصی ارائه نکند. اما مدل ما در ابتدا چنین نبود. در مرحله بعد، فرایند مفصلی برای همراستاسازی (alignment) مدل‌ها طی کردیم تا به شرایط نسبتا مطلوب فعلی رسیدیم. اما نکته منفی این روش این است که دقت مدل‌ها در پاسخ به سوالات مناسب نیز اندکی کاهش می‌یابد. در حال حاضر، در حال تولید یک دیتاست جدید برای آموزش مدل‌ها هستیم که تا حد زیادی از مشکلات قبلی عاری باشد.»

آینده مدل‌های فارسی زبان

صالح‌اوف درمورد این موضوع گفت: «ما آینده مدل‌های زبانی فارسی را بسیار مثبت می‌بینیم. در داخل کشور، شاهد تلاش‌های خوبی در این حوزه هستیم و مجموعه‌های مختلفی به فراخور امکانات و استعدادهای خود در زمینه آموزش مدل‌های زبانی مشغول به فعالیت هستند. این مجموعه‌ها در بخش‌های متنوعی مانند زبان‌شناسی، مدل‌سازی، جمع‌آوری داده و… متمرکز هستند. به طور کلی، آینده مدل‌های زبانی فارسی از نظر ما بسیار درخشان است؛ چرا که فعالیت‌هایی که امروزه در داخل کشور در حال انجام است نسبت به دیگر کشورهای منطقه، بسیار امیدوار کننده است و بعضا شاهد فعالیت‌ها و نوآوری‌هایی هستیم که در سطح دنیا در حال انجام است.»

امینی در این مورد گفت: «تمرکز مجموعه هوش مصنوعی همراه اول، در حال حاضر تولید مدل‌های زبانی کوچک بومی است که به راحتی (حتی در edge device‌ها) قابل بهره‌برداری باشد. به طور مثال، یک مدل ۲ میلیاردی با سه زبان توسعه داده شده است که در حال طی مراحل تست و بررسی است. همچنین، تولید یک مدل ۳ میلیاردی با دانش فارسی بسیار وسیع تر نیز در حال پیگیری است.»

گسترش قابلیت‌هایی مانند یکپارچه‌سازی صدا یا مدیریت بهتر گویش‌های منطقه‌ای

صالح‌اوف گفت: درباره گسترش قابلیت دسترسی‌پذیری مدل و افزایش کاربردهای آن برای عموم افراد، می‌توانم به اپلیکیشن ویرا اشاره کنم که اخیرا توسط مجموعه پارت توسعه یافته و در دسترس همه مردم قرار گرفته است. این اپلیکیشن که کمتر از یک سال از عرضه آن می‌گذرد، با استقبال گسترده‌ای نیز از جانب کاربران همراه بوده است. در داخل این اپ، سرویس‌های generative یا مولد ما قرار دارند که از جذابیت ویژه‌ای برای کاربران عادی برخوردار هستند.»

همچنین او اضافه کرد: دیگر «سرویس‌های ما از جمله صوت، ویژن و NLP نیز در داخل اپ ویرا قابل دسترسی است. در کنار این موارد، سرویس چت‌بات «دانیار» نیز هم‌اکنون در اپ ویرا قابل استفاده است که برای پاسخ‌دهی به سوالات از مدل زبانی «درنا» استفاده می‌کند. مدیر توسعه مرکز AI پارت گفت: ما برنامه داریم که به منظور گسترش فعالیت‌ها، سرویس‌های صوت به متن و متن به صوت خود را با سرویس دانیار ترکیب کنیم. از این طریق، می‌توانیم قابلیت برقراری ارتباط صوتی با چت‌بات را برای کاربران فراهم کنیم و در جهت بهبود تجربه کاربری آنها گام برداریم.»

امینی گفت: «اضافه کردن قابلیت‌های صوتی نیز به صورت موازی در مجموعه و آزمایشگاه هوش مصنوعی همراه اول در حال انجام است و احتمالا تا چند وقت دیگر با مدل زبانی ترکیب خواهد شد. البته، چالش گویش در توسعه مدل زبانی فارسی سد بزرگی محسوب می‌شود. نکته قابل ذکر دیگر، شروع فعالیت بر روی مدل‌های چند حالتی (multimodal) است که قابلیت تولید تصویر، صدا یا ویدئو نیز دارند. البته تا به نتیجه مطلوب رسیدن این بخش راه درازی در پیش است.»

توسط
پیوست
منبع
پیوست
Exit mobile version