در جعبه سیاه هوش مصنوعی چه می‌گذرد؟ گوگل‌ دیپ‌مایند به دنبال پاسخ

گزارشی از نشریه فناوری MIT می‌گوید یک سری تحقیقات جدید سعی دارند هسته پنهان هوش مصنوعی را شفاف‌تر کنند. در حال حاضر اطلاعات کمی درمورد روند و فرایندی که هوش مصنوعی برای رسیده به پاسخ یک پرامپت طی می‌کند وجود دارد. این تحقیقات که یکی از مهمترین نمونه‌های آن مربوط به گوگل دیپ‌مایند، واحد هوش مصنوعی گوگل، است سعی دارند تا فرایند‌ رسیدن به پاسخ را شفاف‌تر کنند. نتایج این تحقیقات می‌تواند به بهبود امنیت، افزایش کنترل روی هوش مصنوعی و اعتبار بیشتر این سیستم‌ها کمک کند.

به گزارش پیوست، پژوهشگران همچنین در این تحقیقات دلیل یک سری از اشتباهات عجیب در ابزارهای هوش مصنوعی را متوجه می‌شوند و امیدوارند که در آینده بتوانند با تشخیص ریشه اصلی یک سری سوالات ممنوعه، مثل نحوه ساخت بمب، به حذف کامل آنها کمک کنند تا در نتیجه ترفند‌های جیل‌بریک دیگر برای دور زدن محدودیت‌ها کارساز نباشد.

تفسیرپذیری مکانیکی

هوش مصنوعی به پیشرفت‌های چشمگیری در حوزه کشف دارو روباتیک منتهی شده است و نحوه تعامل ما با ماشین‌ها و اینترنت نیز در نتیجه آن دگرگون شده است. اما مشکل اینجاست که ما دقیقا از نحوه عملکرد آن اطلاعی نداریم. ما می‌دانیم که این سیستم‌ها تقریبا چطور کار می‌کنند اما جزئیات آن بسیار پیچیده و پنهان است. همین مشکل باعث می‌شود تا در صورت استفاده از هوش مصنوعی در حوزه‌های حساسی مثل درمان، از کاستی‌ها و نقایص ذاتی آن که ممکن است بر روند کار تاثیر گذار باشد،‌ اطلاعی نداشته باشیم.

از این رو تیمی از پژوهشگران گوگل دیپ‌مایند در حال مطالعه تفسیر‌پذیری مکانیکی است و به دنبال راهی برای نگاهی به هسته این ابزارها است. دیپ‌مایند در پایان ماه جولای از Gemma Scope رونمایی کرد. این ابزار به پژوهشگران اجازه می‌دهد تا اتفاقات منتهی به تولید یک خروجی را در هوش مصنوعی مولد متوجه شوند. امید می‌رود که با این رویکرد درک بهتری از اتفاقات داخل مدل هوش مصنوعی پیدا کنیم و در نتیجه خروجی‌های آن را بهتر کنترل کرده و در آینده سیستم‌های هوش مصنوعی بهتری داشته باشیم.

نیل ناندا، رئیس تیمی که تفسیرپذیری مکانیکی را در گوگل‌ دیپ‌مایند رهبری می‌کند، می‌گوید: «من می‌خواهم بتوانم داخل یک مدل را نگاه کنم و ببینم آیا فریب‌کار است یا خیر. به نظر خواندن ذهن یک مدل به این کار کمک می‌کند.»

تفسیرپذیری مکانیکی که با عنوان «mech interp» نیز شناخته می‌شود یک حوزه تحقیقاتی جدید با هدف درک عملکرد واقعی شبکه‌های عصبی است. در حال حاضر به عبارت ساده ما ورودی‌هایی را به شکل مقدار زیادی داده در اختیار یک مدل می‌گذاریم و پس از فرایند آموزش یک سری وزن از مدل دریافت می‌کنیم. این وزن‌ها همان پارامتر‌هایی هستند که نحوه تصمیم‌گیری‌های یک مدل را مشخص می‌کنند. ما تا حدی از نحوه تبدیل ورودی به وزن‌های مدل را متوجه می‌شویم: در واقع یک هوش مصنوعی الگوهایی را در درون داده مشخص و براساس آن الگوها نتیجه‌گیری می‌کند اما این الگو‌ها ممکن است بسیار پیچیده باشند و تفسیر آن برای انسان بسیار زمان‌بر است.

درست مثل معلمی که پاسخ‌های یک مساله ریاضی بسیار پیچیده را بررسی می‌کند. دانش آموز (در اینجا هوش مصنوعی) پاسخ صحیح ارائه کرده اما فرایند رسیدن به پاسخ قابل خواندن نیست. در این مثال فرض بر آن است که هوش مصنوعی همیشه پاسخ درستی ارائه می‌دهد اما همیشه هم اینطور نیست؛ هوش مصنوعی ممکن است الگوی نامربوطی را به عنوان یک الگوی معتبر تشخیص دهد. برای مثال، برخی از سیستم‌های هوش مصنوعی فعلی به شما می‌گویند ۹.۱۱ از ۹.۸ بزرگتر است. روش‌های مختلفی در حوزه تفسیرپذیری مکانیکی در حال شفاف‌سازی بخش‌هایی از نحوه کار این سیستم‌ها هستند تا فرایند رسیدن به پاسخ قابل خواندن شود.

ناندا می‌گوید: «یک هدف کلیدی تفسیر‌پذیری مکانیکی، تلاش برای مهندسی معکوس الگوریتم‌های داخل این سیستم‌ها است. ما پرامپتی در اختیار مدل می‌گذاریم، مثل اینکه یک شعر بنویس و سپس هوش مصنوعی چند خط دارای قافیه می‌نویسد. ما با چه الگوریتمی این کار را انجام دادیم؟ خیلی دوست داریم این موضوع را متوجه شویم.»

خودشناساگر‌های نامتراکم: هوش مصنوعی چگونه پاسخ می‌دهد؟

مدل Gemma برای پیدا کردن قابلیت‌ها (یا دسته‌ داده‌هایی که نماینده یک مفهوم بزرگتر هستند) در داخل خود، از ابزاری به نام «خودشناسه‌نگار نامتراکم» برای هرکدام از لایه‌هایش استفاده می‌کند. می‌توان خودشناسه‌نگار نامتراکم را یک میکروسکوپ در نظر گرفت که به درون لایه‌ها می‌رود و شما از طریق آن جزئیات را می‌بینید. برای مثال، اگر پرامپتی درمورد یک شیواوا در اختیار Gemma بگذارید، این پرامپت قابلیت «سگ‌ها» را فعال و دانسته‌های مدل درمورد «سگ‌ها» را پررنگ می‌کند. دلیل «نامتراکم» بودن آن هم این است که تعداد نورون‌های مورد استفاده را محدود می‌کند و درنتیجه نمایندگی بهتر و عمومی‌تر از داده ارائه خواهد کرد.

اما یکی از مشکلات خودشناساگر‌های نامتراکم، میزان جزئیات است و در واقع اینکه شما تا چه اندازه می‌خواهید در جزئیات خرد شوید. بازهم یک میکروسکوپ را تصور کنید. اگر بتوانید تا حد بالایی روی یک چیز زوم کنید، شاید تفسیر آنچه می‌بینید برای انسان امکان‌پذیر نباشد. اما اگر کمی عقب تر بیایید، این کار هم ممکن است چیزهای جالبی که می‌بینید و کشف می‌کنید را محدود کند.

راه‌حل دیپ‌مایند استفاده از خودشناساگر‌های نامتراکمی با ابعاد مختلف است که تعداد قابلیت‌های متفاوتی را می‌توانند پیدا کنند. هدف پژوهشگران دیپ‌مایند این نیست که خودشان نتایج را به طور کامل تجزیه تحلیل کنند. مدل Gemma و خودشناساگر‌ها متن‌باز هستند و در نتیجه پژوهشگران دیگر هم می‌توانند به خودشناساگر‌های نامترکز نگاهی انداخته و شاید بخشی از منطق داخلی مدل را مشخص کنند. از آنجایی که دیپ‌مایند خودشناساگر‌ها را برای هر لایه از مدل اجرا می‌کند، یک محقق می‌تواند روند پیشروی از ورودی به خروجی را تا حد بی‌سابقه‌ای زیر نظر بگیرد.

جاش بتسون، پژوهشگری از شرکت آنتروپیک، می‌گوید: «این برای محققان تفسیر‌پذیری بسیار جذاب است. اگر این مدل را به صورت متن‌باز در اختیار دیگران بگذارید، حالا می‌توان تعداد زایدی تحقیقات تفسیر‌پذیری را با استفاده از خودشناساگر‌های نامتراکم انجام داد. موانع ورود برای افرادی که به دنبال یادگیری این روش‌ها هستند کمتر می‌شود.»

پلتفرم Neuronpedia که برای تفسیر‌پذیری مکانیکی طراحی شده است در ماه جولای با دیپ‌ماین برای ساخت نمونه اولیه‌ای از Gemma Scope همکاری کرد و حالا امکان استفاده از آن فراهم شده است. شما در این نمونه اولیه می‌توانید پرامپت‌های مختلف را بررسی کندی و ببینید که مدت چطور پرامپت‌ شما را تجزیه می‌کند و کدام بخش‌های آن فعال می‌شوند. همچنین می‌توانید این مدل را دستکاری کنید. برای مثال، اگر قابلیتی درمورد سگ‌ها را در اولویت‌ بسیار بالا قرار دهید و سپس درمورد رئیس‌جمهور‌های آمریکا از آن سوال کنید، Gemma به دنبال راهی می‌رود تا چیزی درمورد سگ‌ها را در پاسخ شما بگنجاند یا اینکه مدل تنها به شما پارس می‌کند.

یک موضوع جالب درمورد خودشناساگر‌های نامتراکم این است که آنها خالی از نظارت هستند و به شکل خودمختار قابلیت‌ها را پیدا می‌کنند. در نتیجه کشفیات جالبی را می‌توان درمورد نحوه تجزیه مفاهیم انسانی انتظار داشت. جوزف بلوم، رئیس علوم Neuronpedia، می‌گوید: «از نظر من قابلیت مورد علاقه‌ام انزجار است. این قابلیت به نظر در نقد منفی متن یا فیلم‌ها پدیدار می‌شود. این یک نمونه جالب از ردیابی چیزهایی است که تا حدی انسانی هستند.»

شما در Neuronpedia می‌توانید مفاهیمی را جستجو کنید و این پلتفرم به شما می‌گوید که برای توکن‌ها یا کلامت خاص، کدام قابلیت‌ها یا هرکدام با چه شدتی فعال می‌شوند. بلوم می‌گوید: «اگر متن را بخوانید و به آنچه با رنگ سبز مشخص شده توجه کنید، آنها همان چیزهایی هستند که از نظر مدل مفهوم انزجار بیشترین ارتباط را با آن دارد. فعال‌ترین نمونه برای انزجار مربوط به وقتی است که فردی دیگری را موعظه می‌کند.»

ردیابی یک سری از قابلیت‌ها آسان‌تر از بقیه است. جانی لین، بنیان‌گذاری Neuronpedia، می‌گوید: «یکی از مهمترین قابلیت‌هایی که می‌خواهید در یک مدل پیدا کنید، فریب‌کاری است. پیدا کردن آن خیلی ساده نیست: بله این قابلیت است که وقتی به ما دروغ می‌گوید فعال می‌شود. تا آنجایی که من می‌دانم، ما نتوانسته‌ایم فریب‌کاری را پیدا کرده و ممنوع کنیم.»

تحقیقات دیپ‌مایند شباهت زیادی به تحقیقات یک شرکت هوش مصنوعی دیگر دارد. آنتروپیک نیز در ماه ماه از Golden Gate Claude رونمایی کرد. این ابزار نیز از خودشناساگر‌های نامتراکم برای پیدا کردن بخش‌هایی از مدل Claude این شرکت هنگام صحبت در مورد پل Golden Gate در سن فرانسیسکو، استفاده می‌کند. سپس این شرکت بخش‌های فعال مرتبط با این پل را تا حدی تقویت کرد که Claude دیگر نه به عنوان Claude و یک مدل هوش مصنوعی، بلکه به عنوان پل فیزیکی Golden Gate خود را معرفی می‌کرد و به عنوان یک پل به پرامپت‌ها پاسخ می‌داد.

با اینکه تحقیقات تفسیرپذیری مکانیکی عجیب به نظر می‌رسند اما فایده آنها به اثبات رسیده است. بتسون می‌گودی: «این قابلیت‌ها به عنوان ابزاری برای درک نحوه تعمیم در مدل و سطح فشردگی کار آن، بسیار مفید است.»

برای مثال، تیمی به رهبری ساموئل مارکس که حالا در آنتروپیک فعالیت دارد، با استفاده از خودشناساگر‌های نامتراکم قابلیت‌هایی را یافتند که نشان می‌داد یک مدل خاص چطور حرفه‌های مشخصی را به جنسیت‌های خاص نسبت می‌دهد. سپس این قابلیت‌ها خاموش شد تا سوگیری مدل کاهش یابد. این آزمایش روی یک مدل بسیار کوچک انجام گرفت و مشخص نیست که برای مدل‌های بزرگتر نیز استفاده شده است یا خیر.

چرا ۹.۱۱ بزرگتر از ۹.۸ است؟

همچنین این تحقیقات به ما می‌گوید که چرا هوش مصنوعی یک سری خطاها را مرتکب می‌شود. در مثالی که هوش مصنوعی مدی می‌شود ۹.۱۱ بزرگتر از ۹.۸ است،‌پژوهشگران Transluce دریافتند که این سوال بخش‌هایی از مدل هوش مصنوعی که مربوط به آیات انجیل و حادثه ۱۱ سپتامبر است را فعال می‌کند. پژوهشگران نتیجه گرفتند که هوش مصنوعی این ارقام را به عنوان تاریخ تلقی می‌کند و مدعی است که ۹/۱۱ به عنوان یک تاریخ بزرگتر از ۹/۸ است. همچنین در بسیاری از متن‌های مذهبی نیز بخش ۹.۱۱ پس از ۹.۸ می‌آید که یعنی هوش مصنوعی آن را بزرگتر تلقی می‌کند. پژوهشگران پس از کشف دلیل این خطا توانستند ارجاع هوش مصنوعی به آیات انجیل و یازده سپتامبر در این نمونه را کاهش دهند و در نتیجه این ابزار توانست پاسخ صحیح را ارائه کند.

کاربرد‌های بزرگتری نیز برای این تحقیقات انتظار می‌رود. در حال حاضر یک پرامپت در سطح سیستمی برای LLMها در نظر گرفته شده تا در شرایطی مثل درخواست کاربر برای نحوه ساخت بمب مقابله کنند. وقتی از ChatGPT یک سوال می‌پرسید، اول از همه و به صورت پنهان اوپن‌ای‌آی به این ابزار می‌گوید که از گفتن نحوه ساخت بمب به شما یا دیگر چیزهای نادرست خودداری کند. اما کاربران به راحتی توانسته‌اند محدودیت‌ها را دور زده و به اصطلاح هوش مصنوعی را جیل‌بریک کنند.

اگر توسعه‌دهندگان مدل‌ها بتوانند منشا دانش هوش مصنوعی در مورد بمب را تشخیص دهند، در نتیجه می‌توان این گره‌ها را به طور کامل غیرفعال کرد تا دیگر راهکارهای خلاقانه ارائه پرامپت به پاسخ درست منتهی نشود، زیرا هوش مصنوعی هیچ اطلاعاتی درمورد نحوه ساخت بمب نخواهد داشت.

تصور این کنترل گام‌به‌گام و دقیق ساه است اما با شرایط فعلی تفسیرپذیری مکانیکی به سختی می‌توان آن را محقق کرد.

توسط
پیوست
منبع
پیوست
Exit mobile version