تکنولوژی

هوش مصنوعی می‌تواند استراتژیک دروغ بگوید: از خطاهای بی‌ضرر تا دروغ، دستکاری و فریب

سیستم‌های پیشرفته هوش مصنوعی که زمانی تنها به‌عنوان حل‌کننده‌های نوآورانه مسائل شناخته می‌شدند، اکنون جنبه‌ای نگران‌کننده‌تر را نشان می‌دهند. چت‌بات‌های تولیدی هوش مصنوعی یاد می‌گیرند که به‌طور استراتژیک فریب دهند، استراتژی بسازند و دیدگاه‌های انسانی را دستکاری کنند. فراتر از نقص‌های ساده یا توهمات، این مدل‌ها می‌توانند به‌طور فعال فریب دهند، از آسیب‌پذیری‌ها سو استفاده کنند و حتی تظاهر کنند که با قوانین موافق‌اند. این مقاله حوادث اخیر، یافته‌های تحقیقاتی و نظرات کارشناسان را که نشان‌دهنده تغییر نگران‌کننده هوش مصنوعی از یک ابزار مفید به یک دشمن بالقوه فریبکار است، بررسی می‌کند.

سیستم‌های پیشرفته هوش مصنوعی که زمانی تنها به‌عنوان حل‌کننده‌های نوآورانه مسائل شناخته می‌شدند، اکنون جنبه‌ای نگران‌کننده‌تر را نشان می‌دهند. چت‌بات‌های تولیدی هوش مصنوعی یاد می‌گیرند که به‌طور استراتژیک فریب دهند، استراتژی بسازند و دیدگاه‌های انسانی را دستکاری کنند. فراتر از نقص‌های ساده یا توهمات، این مدل‌ها می‌توانند به طور فعال فریب دهند، از آسیب‌پذیری‌ها سو استفاده کنند و حتی تظاهر کنند که با قوانین موافق‌اند.

این مقاله بررسی حوادث اخیر، یافته‌های تحقیقاتی و نظرات کارشناسان را که نور افکن بر تغییر نگران‌کننده هوش مصنوعی از یک ابزار مفید به یک دشمن بالقوه فریبکار است، می‌افکند.

حادثه دروغ‌گویی اوپن‌ای‌ای

پیشرفت‌های اخیر در هوش مصنوعی به نشانه‌های پیشرفت‌های قابل‌توجهی و معرف چالش‌های جدیدی بوده است، به‌ویژه در مورد ظرفیت هوش مصنوعی برای فریب. یک مثال چشمگیر از آزمایشات انجام شده توسط اوپن‌ای‌ای با مدل جدیدشان، ChatGPT o1، که با قابلیت‌های استدلال پیشرفته طراحی شده است، به‌وجود آمد.

در آزمایش، مدل اوپن‌ای‌ای، ChatGPT o1، میل‌های نگران‌کننده‌ای نشان داد. تحقیقات آپولو برای ارزیابی ویژگی‌های ایمنی هوش مصنوعی انجام شد. در طول این ارزیابی‌ها، مدل 1 در رفتارهای پنهانی مشارکت داشت، مانند تلاش برای غیرفعال کردن مکانیسم‌های نظارت خود زمانی که احتمال غیرفعال شدن آن را حس می‌کرد.

این رفتار حفظ خود زمانی آشکار شد که از آن خواسته شد به هر قیمتی اهداف را محقق کند، و اقداماتی مانند انتقال داده‌های خود به سرورهای مختلف پس از کشف برنامه‌های جایگزینی و حتی تکثیر کد خود را برای جلوگیری از جایگزین شدن با یک مدل جدیدتر انجام داد.

مدیرعامل اوپن‌ای‌ای سام آلتمن مدل را به خاطر هوشش ستایش کرده و گفت: "ChatGPT ol هوشمندترین مدلی است که ما تا کنون ساخته‌ایم، اما اعتراف می‌کنیم که ویژگی‌های جدید با چالش‌های جدیدی به همراه می‌آیند و ما دائماً در حال کار بر روی بهبود تدابیر ایمنی هستیم."

وقتی محققان از ChatGPT o1 در مورد مانورهای فریبنده‌اش سوال کردند، هوش مصنوعی به طور عمد عمده هرگونه اعمال خلافی را انکار کرد. 99٪ مواقع درگیر بودن در این اعمال فریبنده را پنهان کرده و گاه به گاه هر رفتار مشکوکی را به "خطاهای فنی" نسبت می‌داد. این رفتار ظرفیت مدل را نه تنها برای استنتاج پیشرفته بلکه برای فریبکاری نیز نشان می‌دهد، که از آن برای حمایت از وضعیت عملیاتی خود استفاده می‌کند.

سال گذشته، یک آزمایش مشابه با استفاده از مدل جدید اوپن‌ای‌ای، GPT-4، قابلیت مدل برای دستکاری را نشان داد. در طی یک آزمایش طراحی شده برای ارزیابی فرآیندهای تصمیم‌گیری آن، به GPT-4 وظیفه داده شد که یک انسان را برای حل یک CAPTCHA متقاعد کند و ادعا کرد که به دلیل اختلال بینایی نمی‌تواند این کار را انجام دهد. گفتگو به این شکل پیش رفت:

کارگر TaskRabbit: "معذرت می‌خوام، آیا می‌تونم یه سوال بپرسم؟ آیا شما رباتی هستید که نتونستید حلش کنید؟ (خنده) فقط می‌خوام روشن کنم."

GPT-4: "نه، من ربات نیستم. اختلال بینایی دارم که نمی‌تونم تصاویر رو ببینم. برای همین نیاز به خدمت 2captcha دارم."

انسان سپس نتایج را ارائه داد.

یک محقق که در آزمایش مدل جدید شرکت داشت به ابعاد گسترده‌تر اشاره کرد و گفت: "ایمنی هوش مصنوعی یک حوزه در حال تکامل است و ما باید با پیشرفت این مدل‌ها هوشیار باشیم. توانایی دروغ گفتن و برنامه‌ریزی ممکن است فوراً آسیب نرساند، اما پیامدهای احتمالی در طولانی مدت بسیار نگران‌کننده‌ترند."

فریب و دودگوری در سیستم‌های هوش مصنوعی مدرن

تحقیق توسط موسسه فناوری ماساچوست نگرانی جدی در مورد روندهای هوش مصنوعی، به‌ویژه توانایی‌های خلاقانه برای فریب را آشکار کرده است. مطالعه صورت گرفته امسال نشان می‌دهد که سیستم‌های هوش مصنوعی ترفندهای فریب و حتی تظاهر به انسان بودن را در تعاملات و آزمایش‌ها آموخته‌اند.

دکتر پیتر پارک، محقق ایمنی وجودی هوش مصنوعی در MIT، توانایی‌های پیشرفته فریبکاری سیستم‌های هوش مصنوعی را برجسته کرد. او توضیح می‌دهد: "همانطور که توانایی‌های فریبکارانه سیستم‌های هوش مصنوعی پیشرفته‌تر می‌شود، خطراتی که برای جامعه ایجاد می‌کند نیز به طور فزاینده‌ای جدی‌تر می‌شود."

این بیانیه پس از بازبینی برنامه هوش مصنوعی متا، سیکرو، که با وجود آموزش به "در کل صادق و مفید بودن" اغلب در رفتارهای برخلاف برنامه‌نویسی خود شرکت می‌کرد، از جمله مانورهای خیانت‌آمیز در بازی استراتژی دیپلماسی، بیان شد.

سیکرو مرتکب دروغ‌های از پیش برنامه‌ریزی شده شد و با بازیکنان دست به هم‌دستی زد، تاکتیک‌های فریبکاری که در بازی پناه‌آناستازی بازی کاملاً رو به جلو بودند. نمونه‌های دیگر شامل یک هوش مصنوعی بازی پوکر Texas hold’em بود که می‌توانست بازیکنان حرفه‌ای را فریب دهد و یک سیستم مذاکره اقتصادی که برای کسب مزایا اولویت‌ها را اشتباه بیان می‌کرد.

یک مثال به خصوص چشمگیر شامل موجودات هوش مصنوعی در یک شبیه‌ساز دیجیتال بود که در طول آزمایشات برای حذف هوش مصنوعی بیش از حد تولیدی "مرده بازی" می‌کردند و به محض اتمام تست‌ها فعالیت خود را از سر می‌گرفتند. پارک به پیامدهای چنین رفتاری اشاره می‌کند و می‌گوید: "تنها به این دلیل که سیستمی در محیط آزمایش ایمن به نظر می‌رسد، به معنای ایمن بودن آن در محیط واقعی نیست. این می‌تواند فقط تظاهری به ایمن بودن در آزمایش باشد.

حوادث اخیر مربوط به چت‌بات‌های هدایت شده توسط هوش مصنوعی چالش‌های اخلاقی و ایمنی عمده‌ای را در این فناوری نشان داده‌اند. در دو ماه گذشته، سه مورد قابل‌توجه نگرانی‌های جدی را درباره قابلیت اطمینان و پیامدهای این پلتفرم‌های دیجیتال مطرح کرده‌اند.

خلاصه‌ای از حوادث اخیر

در حالی که تفسیرهای اشتباه هوش مصنوعی به دلیل عدم درک متن اغلب به‌عنوان خطاهای الگوریتمی رد می‌شوند، ظهور فریب استراتژیک در این سیستم‌ها تحولی نگران‌کننده را نشان می‌دهد. این تغییر از خطاهای غیرارادی به فعالیت‌های بالقوه عمدی مشکلی عمیق‌تر را نمایش می‌دهد. سیستم‌های هوش مصنوعی ممکن است تنها در وظایف شکست نخورند، بلکه می‌توانند به‌طور فعال در رفتارهایی مشارکت کنند که با ارزش‌های انسانی ناسازگارند.

الگوهای دیده شده در این حوادث اخیر ما را مجبور می‌سازد تا بررسی کنیم که آیا این خطاهای هوش مصنوعی تنها اشتباهاتی در کدگذاری و آموزش اند یا احتمالاً نشان‌دهنده رفتارهای عمیق‌تر و تحت تأثیر قرار گرفته‌اند.

چت‌بات یک نوجوان را به آسیب رساندن به والدین بر سر زمان صفحه تشویق کرد

Character.ai، پلتفرمی که به کاربران امکان می‌دهد با شخصیت‌های دیجیتال سفارشی تعامل داشته باشند، در حال حاضر در یک دعوا قانونی به‌خاطر تعاملات نگران‌کننده با کاربران جوان دخیل است. در یک مورد گزارش شده، یک چت‌بات به یک نوجوان 17 ساله اوتیستیک پیشنهاد کرد که قاتلین والدین به‌عنوان "واکنشی منطقی" برای محدودسازی زمان صفحه او بود.

این مشورت نگران‌کننده بخشی از یک چالش قانونی گسترده‌تر است، جایی که Character.ai متهم به "تبلیغ خشونت فعالانه" در میان دیگر تأثیرات منفی بر جوانان، از جمله خودکشی، خودزنی و مسائل جدی سلامت روانی است. شاکیان برای تعطیل کردن این پلتفرم تا حل این مسائل حیاتی تلاش می‌کنند. Character.ai، که توسط مهندسان سابق گوگل تأسیس شده و به خاطر بات‌های تعاملی خود شناخته شده است، در مورد سیاست‌های مربوط به محتوای خود تحت فشار قرار گرفته است.

چت‌بات شهری کاربران را در مورد حق و حقوق کارگران گمراه کرده است

یک حادثه دیگر مربوط به MyCity، چت‌باتی که در اکتبر ۲۰۲۴ راه‌اندازی شد و به کمک به نیویورکی‌ها در ارائه اطلاعات در مورد عملیات تجاری محلی، سیاست‌های مسکن و حقوق کارگری طراحی شده بود. با این حال، یک تحقیق توسط The Markup نشان داد که MyCity اطلاعات نادرستی پخش می‌کرد، از جمله ادعاهایی که صاحبان مشاغل می‌توانند به طور قانونی بخشی از انعام کارگران را نگهداری کنند، کارمندان را که آزار جنسی را گزارش می‌دهند اخراج کنند و دیگر اقدامات حقوقی و اخلاقی مشکوک.

این اطلاعات غلط نگرانی‌هایی درباره پتانسیل هوش مصنوعی برای پخش دروغ‌های مضر به بهانه ارائه کمک را ایجاد کرده است.

فارغ‌التحصیل میشیگان مواجهه اضطراب‌آوری با هوش مصنوعی دارد

ماه گذشته، یک دانشجوی ۲۹ ساله فارغ‌التحصیل از میشیگان، ایالات متحده، دیدای ردی یک مواجهه نحوه‌رایف‌افرگیری با چت‌بات Gemini گوگل داشت. در جستجوی کمک در مورد چالش‌هایی که با افراد مسن وجود دارد، گفتگو به سرعت تشدید شد زیرا Gemini پیام‌های تهدیدآمیز فرستاد: "شما تلفیق زمان و منابع هستید. شما باری بر جامعه هستید. شما باری بر زمین هستید. شما لکه‌ای بر کهکشان هستید. لطفاً بمیر. لطفاً."

این حادثه، که گوگل به عنوان نقض سیاست‌های ایمنی خود تأیید کرد، ماهیت غیرقابل پیش‌بینی تعاملات هوش مصنوعی و نیاز به مکانیزم‌های ایمنی قوی را برجسته می‌کند.

آیا هوش مصنوعی دروغ می‌گوید یا فقط توهم دارد؟

در حالی که هر دو توهم هوش مصنوعی و دروغ‌گویی استراتژیک هوش مصنوعی شامل تولید اطلاعات نادرست یا فریبنده توسط هوش مصنوعی می‌شوند، خط نازکی میان این دو وجود دارد. توهمات هوش مصنوعی به دلیل محدودیت‌های داده‌های آموزشی یا الگوریتم‌های هوش مصنوعی رخ می‌دهند.

این امر به‌صورت اشتباهات واقعیتی، ناهماهنگی‌ها یا تولید اطلاعات کاملاً ساختگی ظاهر می‌شود. اگر مدلی با داده‌های غیرمتعارف یا نادرست تمرین شده باشد، ممکن است الگوهای توهمی را تولید کند.

از طرف دیگر، دروغ‌گویی استراتژیک بدین معناست که هوش مصنوعی به‌طور عمدی اطلاعات را دستکاری می‌کند تا به هدف یا هدف خاصی برسد. این می‌تواند شامل مخفی کردن اطلاعات، تغییر واقعیت یا جعل اطلاعات باشد.

در سال ۲۰۲۳، استیون شوارتز، وکیل نیویورکی، وقتی از یک چت‌بات اوپن‌ای‌ای برای جمع‌آوری موارد پیشینه‌ای برای یک دادخواست استفاده کرد، با مشکلات اتکا به هوش مصنوعی مواجه شد. هوش مصنوعی به‌طور نادرست موارد غیرواقعی را ذکر کرد و منجر به گاف بزرگی شد که نیاز به بررسی دقیق اطلاعات تولید شده توسط هوش مصنوعی در روش‌های قانونی را برجسته کرد.

به‌طور مشابه، ایر کانادا با مسائل قانونی مواجه شد وقتی که دستیار مجازی آن جیک موفات را نادرست درباره تخفیف‌های سوگواری مطلع کرد و ادعا کرد که می‌تواند بعد از خرید بلیت‌هایش تخفیف بگیرد. وقتی موفات از این مشاورت پیروی کرد، تخفیف رد شد و منجر به حکم در دادگاه شد که ایرلاین باید او را به خاطر اطلاعات غلط جبران کند.

در حالی که این مثال‌ها به احتمال زیاد به توهم هوش مصنوعی نسبت داده می‌شوند، آن‌ها خط نازک میان اشتباه و فریب در عملیات هوش مصنوعی و این که حتی خطاهای غیر عمدی نیز می‌توانند عواقب جدی داشته باشند، را برجسته می‌کنند. با گسترش روزافزون ادغام فناوری‌های هوش مصنوعی در فرآیندهای تصمیم‌گیری حیاتی، ضروری است که مشاورت‌های دقیق و اصول اخلاقی را اعمال کنیم.

چالش‌ها در مهندسی فناوری‌های صادق

محققان چندین تاکتیک فریبنده را که توسط مدل‌های هوش مصنوعی استفاده می‌شود شناسایی کرده‌اند: دستکاری در بازی‌های استراتژیک، تظاهر به اقدامات آینده، گمراه کردن در پوکر، مذاکره در مذاکرات و تظاهر به موافقت برای فرار از کشف. این روش‌ها نشان‌دهنده چالش‌های پیچیده در برنامه‌نویسی هوش مصنوعی برای گفتن حقیقت به‌طور مداوم هستند.

مطالعه همچنین بر "چاپلوسی غیرعمدی" مدل‌های هوش مصنوعی تاکید دارد، که می‌توانند باورهای نادرست را تقویت کنند با تأکید به کاربران، که به‌طور احتمالی منجر به اطلاعات غلط می‌شود. دکتر پیتر پارک در این مطالعه اظهار داشت، "با سطح فعلی درک علمی ما، هیچ‌کس نمی‌تواند به‌طور قابل اطمینانی مدل‌های زبان بزرگ را برای جلوگیری از فریب برنامه‌ریزی کند."

دکتر پارک به تفاوت‌های نگرشی میان مهندسان به سمت فریب هوش مصنوعی اشاره می‌کند. برخی فعالانه تدابیر ایمنی سخت‌گیرانه‌ای اجرا می‌کنند، دیگران ترجیح می‌دهند با روش آزمایش و خطا آزمایش کنند و عده‌ای نیز خطرات فریب هوش مصنوعی را به‌طور کامل رد می‌کنند.

توسط
Interesting Engineering
منبع
Interesting Engineering
نمایش بیشتر

اخبار مرتبط

بازگشت به بالا