آن را مرز بعدی در یادگیری ماشینی بنامید: دانشمندان یک مدل زبان طبیعی بزرگ به نام Evo طراحی کردهاند تا دادههای دنباله زیستی یا کد ژنتیکی را تفسیر کند.
برای جلب توجه هوش مصنوعی به سمت زیستشناسی، دانشمندان Arc Institute نسخه 1.0 از 'یک مدل پایه ژنومیک' را ایجاد کردند. ژنوم به عنوان دنبالهای با کد DNA، RNA و پروتئینها رمزگذاری میشود که با میلیونها میکروب به جای کلمات آموزش دیده است.
با این مقدار قابل توجه از دادههای بیولوژیکی، مدل بسیار شبیه مدلهای یادگیری زبان (LLM) مانند گوگل جمینی، طبق گزارش علوم زنده و GPT در ChatGPT عمل میکند. در بین قابلیتهای آن، میتواند بیاموزد و پیشبینی کند که چگونه تغییرات کوچک در دنباله بر کل ارگانیسم تأثیر خواهد گذاشت، که این هوش مصنوعی میتواند ابزار قدرتمندی در جیب پژوهشگران پزشکی باشد.
اگرچه فقط در مراحل ابتدایی قرار دارد و هنوز به دادههای انسانی مجهز نیست، اما میتواند به دانشمندان درک عملکردهای بیشتر توالی DNA و RNA کمک کند و حتی به گفته مهندسان پیشگام آن، توانایی مهندسی حیات را تسریع کند. 'Evo نمایانگر پیشرفت بزرگی در ظرفیت ما برای درک و مهندسی زیستشناسی در چندین حالت و مقیاس پیچیدگی است.'
یادگیری ماشینی وارد حوزه زیستشناسی با Evo شد
دانشمندان Arc Institute یک مدل هوش مصنوعی چندجانبه با وضوح بالا و سرعت بالا طراحی کردهاند که 2.7 میلیون ژنوم پروکاریوتی و فازی را تحلیل کرده تا بتواند پیشبینی کند و حتی دنبالههای کد را تولید کند.
همانطور که در مقاله تحقیقاتی منتشر شده در Science ذکر شده است، حتی سادهترین ژنومهای میکروبی 'بسیار پیچیده' هستند که این چالشی اساسی در کاربرد هوش مصنوعی برای زیستشناسی ارائه میدهد.
اما به گفته نویسندگان مطالعه، 'Evo درک کاملی از کد ژنتیکی پیچیده حیات از پایههای DNA تا ژنومهای کامل توسعه داده است'، با استفاده از میکروبها به عنوان نقطه شروع.
'این به مدل امکان میدهد که چگونه تغییرات کوچک DNA بر سازگاری ارگانیسم تأثیر میگذارد، دنبالههایی با طول ژنومی واقعی تولید کند، و سیستمهای زیستی جدید طراحی کند، از جمله تأییدیه آزمایشگاهی سیستمهای CRISPR مصنوعی و IS200/IS605 ترانسپوزونها.'
هر پایه جفت یا اساس DNA از ژنومهای ارائه شده مانند یک کلمه عمل میکند، طبق علوم زنده. Evo بهطور منطقی این دنبالهها را بر اساس آموزش خود برای پیشبینی نتیجه و حتی نوشتن کد یا 'دنباله ها' ارزیابی میکند.
مهندسان Evo را برای پوشش دو جنبه اساسی و بسیار پیچیده زیستشناسی طراحی کردهاند: چندجانبه بودن دگم مرکزی، 'که DNA، RNA و پروتئینها را با یکدیگر کد و جریان اطلاعات قابل پیشبینی را یکپارچه میکند،' و 'طبیعت چند مقیاسی تکامل.' که به 'مقیاسهای طولی بسیار متفاوت عملکرد زیستی که توسط مولکولها، مسیرها، سلولها و ارگانیسمها نشان داده میشود' اشاره دارد. بار اطلاعاتی باورنکردنی.
زیستشناسی هوشمند بر ما فرار رسیده است
نتایج بهدست آمده امیدوارکننده به نظر میرسند، مانند 'تولید مجموعهای از پروتئین و اجزای RNA که از عفونت ویروسی جلوگیری میکنند،' جالب است طبق گفته علوم زنده . با این حال، برخی از دنبالههای DNA تولید شده غیرقابل معنای کامل بودند، تقریباً مانند یک عکس تار.
اما این فقط شروع Evo، نسخه 1.0 است. هنوز به سطح ژنتیک انسانی نرسیده است، اما میتواند یاد بگیرد و به سرعت از آنجا که موسسه Arc مسیر جدیدی برای یادگیری ماشینی باز کرده است، که میتواند جهت انقلابی برای هوش مصنوعی باشد.
مقاله پژوهشی بهتازگی در Science . منتشر شده است.