از LAM جدیدترین هوش مصنوعی مایکروسافت چه میدانیم؟
به گزارش پیوست، مدلهای زبانی بزرگ (LLMs) در پیشرفتهای هوش مصنوعی پیشرو بوده و به ایجاد چت باتها، تولید متن و کدنویسی کمک کردهاست. در این شرایط پژوهشگران مایکروسافت مدلی به نام «مدل عملیاتی بزرگ» یا LAM» Large Action Models» طراحی کردهاند، این مدل توانایی اجرای برنامههای ویندوز به شکل مستقل را دارد.
مدلهای عملیاتی بزرگ یا LMAها پیشرفت قابل توجهی در دنیای هوش مصنوعی هستند و به هوش مصنوعی امکان اجرای وظایف پیچیده بر اساس دستورات انسانی را میدهد. چراکه امروزه میتوانیم شاهد مدلهایی که توانایی انجام اقدامات واقعی و خارج از متن را دارند، باشیم.
مدلهای LAM چه قابلیتهایی دارند؟
مدلهای سنتی هوش مصنوعی عمدتا در پردازش و تولید متن فعالیت میکردند، اما LAMها گامی فراتر از این دنیای سنتی است. به طور کلی، LAMها نوعی از هوش مصنوعی هستند، که در کنار درک اطلاعات میتوانند اقدامات عملی انجام دهند.
بر اساس مقاله «مدلهای عملیاتی بزرگ از ایده تا پیادهسازی» این مدلها به گونهای طراحی شدهاند که قابلیت تعامل با محیط دیجیتال و فیزیکی در آنها وجود داشته باشد. LAMها در هسته، سه قابلیت درک هدف و تفسیر دقیق دستورات کاربر، توانایی برنامهریزی مراحل اجرا؛ همچنین توانایی تغییر و انطباق بر اساس بازخورد محیط را در خود ترکیب میکند.
LAMها چگونه ساخته میشوند؟
در مقایسه با LLMها (مدلهای زبانی بزرگ)، ساخت LAMها بسیار پیچیدهتر است و شامل پنج مرحله میشود.
توانایی اقدامات عملی مهمترین قابلیت جدیدترین هوش مصنوعی طراحی شده توسط مایکروسافت است. پیشرفتهای امروزه نشان میدهد برخلاف گذشته می توانیم از هوش مصنوعی درخواست اجرای عملیاتی دستورات را داشته باشیم.
به گزارش پیوست، مدلهای زبانی بزرگ (LLMs) در پیشرفتهای هوش مصنوعی پیشرو بوده و به ایجاد چت باتها، تولید متن و کدنویسی کمک کردهاست. با وجود عملکرد بسیار خوب مدلهای زبانی بزرگ در تولید و درک متن، آنها در انجام وظایف خود در محیطهای واقعی با چالش روبرو هستند. در این شرایط پژوهشگران مایکروسافت مدلی به نام «مدل عملیاتی بزرگ» یا LAM» Large Action Models» طراحی کردهاند، این مدل توانایی اجرای برنامههای ویندوز به شکل مستقل را دارد.
مدلهای عملیاتی بزرگ یا LMAها پیشرفت قابل توجهی در دنیای هوش مصنوعی هستند و به هوش مصنوعی امکان اجرای وظایف پیچیده بر اساس دستورات انسانی را میدهد. این مدل گامی فراتر از مدلهای امروزی است که تنها قابلیت تولید متن دارند. چراکه امروزه میتوانیم شاهد مدلهایی که توانایی انجام اقدامات واقعی و خارج از متن را دارند، باشیم.
مدلهای LAM چه قابلیتهایی دارند؟
مدلهای سنتی هوش مصنوعی عمدتا در پردازش و تولید متن فعالیت میکردند، اما LAMها گامی فراتر از این دنیای سنتی است. LAM اولین مدلی است که به طور خاص برای کار با محصولات مایکروسافت آموزش دیده است. مفهوم LAMها در نیمه اول سال ۲۰۲۴، زمانی که دستگاه Rabbit AI معرفی شد، مورد توجه قرار گرفت؛ دستگاهی که هوش مصنوعی آن میتوانست بدون نیاز به دخالت کاربر با برنامههای موبایل تعامل داشته باشد. این مدلها میتوانند درخواست کاربران را به اقداماتی واقعی از جمله کار با نرم افزارها یا کنترل رباتها تبدیل کنند. مدلهای عملیاتی بزرگ میتوانند ورودیهایی مانند متن، صدا یا تصاویر را درک کرده و آنها را به برنامههای قدم به قدم دقیق تبدیل کنند. آنها همچنین میتوانند رویکرد و جهت خود را در لحظه تغییر دهند. به طور کلی، LAMها نوعی از هوش مصنوعی هستند، که در کنار درک اطلاعات میتوانند اقدامات عملی انجام دهند.
بر اساس مقاله «مدلهای عملیاتی بزرگ از ایده تا پیادهسازی» این مدلها به گونهای طراحی شدهاند که قابلیت تعامل با محیط دیجیتال و فیزیکی در آنها وجود داشته باشد. به عنوان مثال در این نوع از هوش مصنوعی میتوانیم به جای درخواست برای چگونگی ساخت ارائه در پاور پوینت از آن بخواهیم برنامه را باز، اسلایدها را ایجاد و بر اساس سلیقه فرد قالببندی را انجام دهد. LAMها در هسته، سه قابلیت درک هدف و تفسیر دقیق دستورات کاربر، توانایی برنامهریزی مراحل اجرا؛ همچنین توانایی تغییر و انطباق بر اساس بازخورد محیط را در خود ترکیب میکند.
LAMها چگونه ساخته میشوند؟
در مقایسه با LLMها (مدلهای زبانی بزرگ)، ساخت LAMها بسیار پیچیدهتر است و شامل پنج مرحله میشود. دادهها زیربنای هر مدل هوش مصنوعی هستند و LAMها به دو نوع داده نیاز دارند. یکی از آنها مربوط به دادههای برنامهریزی است، که شامل گامهای کلی وظایف مانند بازکردن یک فایل ورود و برجسته کردن متن میشود. دیگری نیز مربوط به دادههای انجام وظیفه است که قدمهای قابل اجرا را مشخص میکند.
در مرحله آموزش، این مدلها تحت تنظیم دقیق نظارتشده، یادگیری تقویتی، و یادگیری تقلیدی قرار میگیرند. پیش از اجرا، این مدلها در محیطهای کنترلشده آزمایش میشوند و سپس در سیستمهای عامل مانند عوامل GUI (Graphical User Interface یا رابط کاربری گرافیکی) ویندوز ادغام میشوند تا با محیطهای دیگر تعامل داشته باشند. در نهایت، مدل در موقعیتهای واقعی آزمایش میشود تا میزان انطباقپذیری و عملکرد آن سنجیده شود.
LAMها تحولی بزرگ از تولید متن به هوش مصنوعیهای عملیاتی هستند. از خودکارسازی فرآیندها گرفته تا کمک به افراد دارای معلولیت، LAMها نه تنها هوشمندتر، بلکه در زندگی روزمره کاربردیتر هستند. با پیشرفت این فناوری، پیشبینی میشود LAMها به زودی به استانداردی در تمام بخشها تبدیل شوند.