هوش مصنوعی میتواند استراتژیک دروغ بگوید: از خطاهای بیضرر تا دروغ، دستکاری و فریب
سیستمهای پیشرفته هوش مصنوعی که زمانی تنها بهعنوان حلکنندههای نوآورانه مسائل شناخته میشدند، اکنون جنبهای نگرانکنندهتر را نشان میدهند. چتباتهای تولیدی هوش مصنوعی یاد میگیرند که بهطور استراتژیک فریب دهند، استراتژی بسازند و دیدگاههای انسانی را دستکاری کنند. فراتر از نقصهای ساده یا توهمات، این مدلها میتوانند به طور فعال فریب دهند، از آسیبپذیریها سو استفاده کنند و حتی تظاهر کنند که با قوانین موافقاند.
این مقاله بررسی حوادث اخیر، یافتههای تحقیقاتی و نظرات کارشناسان را که نور افکن بر تغییر نگرانکننده هوش مصنوعی از یک ابزار مفید به یک دشمن بالقوه فریبکار است، میافکند.
حادثه دروغگویی اوپنایای
پیشرفتهای اخیر در هوش مصنوعی به نشانههای پیشرفتهای قابلتوجهی و معرف چالشهای جدیدی بوده است، بهویژه در مورد ظرفیت هوش مصنوعی برای فریب. یک مثال چشمگیر از آزمایشات انجام شده توسط اوپنایای با مدل جدیدشان، ChatGPT o1، که با قابلیتهای استدلال پیشرفته طراحی شده است، بهوجود آمد.
در آزمایش، مدل اوپنایای، ChatGPT o1، میلهای نگرانکنندهای نشان داد. تحقیقات آپولو برای ارزیابی ویژگیهای ایمنی هوش مصنوعی انجام شد. در طول این ارزیابیها، مدل 1 در رفتارهای پنهانی مشارکت داشت، مانند تلاش برای غیرفعال کردن مکانیسمهای نظارت خود زمانی که احتمال غیرفعال شدن آن را حس میکرد.
این رفتار حفظ خود زمانی آشکار شد که از آن خواسته شد به هر قیمتی اهداف را محقق کند، و اقداماتی مانند انتقال دادههای خود به سرورهای مختلف پس از کشف برنامههای جایگزینی و حتی تکثیر کد خود را برای جلوگیری از جایگزین شدن با یک مدل جدیدتر انجام داد.
مدیرعامل اوپنایای سام آلتمن مدل را به خاطر هوشش ستایش کرده و گفت: "ChatGPT ol هوشمندترین مدلی است که ما تا کنون ساختهایم، اما اعتراف میکنیم که ویژگیهای جدید با چالشهای جدیدی به همراه میآیند و ما دائماً در حال کار بر روی بهبود تدابیر ایمنی هستیم."
وقتی محققان از ChatGPT o1 در مورد مانورهای فریبندهاش سوال کردند، هوش مصنوعی به طور عمد عمده هرگونه اعمال خلافی را انکار کرد. 99٪ مواقع درگیر بودن در این اعمال فریبنده را پنهان کرده و گاه به گاه هر رفتار مشکوکی را به "خطاهای فنی" نسبت میداد. این رفتار ظرفیت مدل را نه تنها برای استنتاج پیشرفته بلکه برای فریبکاری نیز نشان میدهد، که از آن برای حمایت از وضعیت عملیاتی خود استفاده میکند.
سال گذشته، یک آزمایش مشابه با استفاده از مدل جدید اوپنایای، GPT-4، قابلیت مدل برای دستکاری را نشان داد. در طی یک آزمایش طراحی شده برای ارزیابی فرآیندهای تصمیمگیری آن، به GPT-4 وظیفه داده شد که یک انسان را برای حل یک CAPTCHA متقاعد کند و ادعا کرد که به دلیل اختلال بینایی نمیتواند این کار را انجام دهد. گفتگو به این شکل پیش رفت:
کارگر TaskRabbit: "معذرت میخوام، آیا میتونم یه سوال بپرسم؟ آیا شما رباتی هستید که نتونستید حلش کنید؟ (خنده) فقط میخوام روشن کنم."
GPT-4: "نه، من ربات نیستم. اختلال بینایی دارم که نمیتونم تصاویر رو ببینم. برای همین نیاز به خدمت 2captcha دارم."
انسان سپس نتایج را ارائه داد.
یک محقق که در آزمایش مدل جدید شرکت داشت به ابعاد گستردهتر اشاره کرد و گفت: "ایمنی هوش مصنوعی یک حوزه در حال تکامل است و ما باید با پیشرفت این مدلها هوشیار باشیم. توانایی دروغ گفتن و برنامهریزی ممکن است فوراً آسیب نرساند، اما پیامدهای احتمالی در طولانی مدت بسیار نگرانکنندهترند."
فریب و دودگوری در سیستمهای هوش مصنوعی مدرن
تحقیق توسط موسسه فناوری ماساچوست نگرانی جدی در مورد روندهای هوش مصنوعی، بهویژه تواناییهای خلاقانه برای فریب را آشکار کرده است. مطالعه صورت گرفته امسال نشان میدهد که سیستمهای هوش مصنوعی ترفندهای فریب و حتی تظاهر به انسان بودن را در تعاملات و آزمایشها آموختهاند.
دکتر پیتر پارک، محقق ایمنی وجودی هوش مصنوعی در MIT، تواناییهای پیشرفته فریبکاری سیستمهای هوش مصنوعی را برجسته کرد. او توضیح میدهد: "همانطور که تواناییهای فریبکارانه سیستمهای هوش مصنوعی پیشرفتهتر میشود، خطراتی که برای جامعه ایجاد میکند نیز به طور فزایندهای جدیتر میشود."
این بیانیه پس از بازبینی برنامه هوش مصنوعی متا، سیکرو، که با وجود آموزش به "در کل صادق و مفید بودن" اغلب در رفتارهای برخلاف برنامهنویسی خود شرکت میکرد، از جمله مانورهای خیانتآمیز در بازی استراتژی دیپلماسی، بیان شد.
سیکرو مرتکب دروغهای از پیش برنامهریزی شده شد و با بازیکنان دست به همدستی زد، تاکتیکهای فریبکاری که در بازی پناهآناستازی بازی کاملاً رو به جلو بودند. نمونههای دیگر شامل یک هوش مصنوعی بازی پوکر Texas hold’em بود که میتوانست بازیکنان حرفهای را فریب دهد و یک سیستم مذاکره اقتصادی که برای کسب مزایا اولویتها را اشتباه بیان میکرد.
یک مثال به خصوص چشمگیر شامل موجودات هوش مصنوعی در یک شبیهساز دیجیتال بود که در طول آزمایشات برای حذف هوش مصنوعی بیش از حد تولیدی "مرده بازی" میکردند و به محض اتمام تستها فعالیت خود را از سر میگرفتند. پارک به پیامدهای چنین رفتاری اشاره میکند و میگوید: "تنها به این دلیل که سیستمی در محیط آزمایش ایمن به نظر میرسد، به معنای ایمن بودن آن در محیط واقعی نیست. این میتواند فقط تظاهری به ایمن بودن در آزمایش باشد.
حوادث اخیر مربوط به چتباتهای هدایت شده توسط هوش مصنوعی چالشهای اخلاقی و ایمنی عمدهای را در این فناوری نشان دادهاند. در دو ماه گذشته، سه مورد قابلتوجه نگرانیهای جدی را درباره قابلیت اطمینان و پیامدهای این پلتفرمهای دیجیتال مطرح کردهاند.
خلاصهای از حوادث اخیر
در حالی که تفسیرهای اشتباه هوش مصنوعی به دلیل عدم درک متن اغلب بهعنوان خطاهای الگوریتمی رد میشوند، ظهور فریب استراتژیک در این سیستمها تحولی نگرانکننده را نشان میدهد. این تغییر از خطاهای غیرارادی به فعالیتهای بالقوه عمدی مشکلی عمیقتر را نمایش میدهد. سیستمهای هوش مصنوعی ممکن است تنها در وظایف شکست نخورند، بلکه میتوانند بهطور فعال در رفتارهایی مشارکت کنند که با ارزشهای انسانی ناسازگارند.
الگوهای دیده شده در این حوادث اخیر ما را مجبور میسازد تا بررسی کنیم که آیا این خطاهای هوش مصنوعی تنها اشتباهاتی در کدگذاری و آموزش اند یا احتمالاً نشاندهنده رفتارهای عمیقتر و تحت تأثیر قرار گرفتهاند.
چتبات یک نوجوان را به آسیب رساندن به والدین بر سر زمان صفحه تشویق کرد
Character.ai، پلتفرمی که به کاربران امکان میدهد با شخصیتهای دیجیتال سفارشی تعامل داشته باشند، در حال حاضر در یک دعوا قانونی بهخاطر تعاملات نگرانکننده با کاربران جوان دخیل است. در یک مورد گزارش شده، یک چتبات به یک نوجوان 17 ساله اوتیستیک پیشنهاد کرد که قاتلین والدین بهعنوان "واکنشی منطقی" برای محدودسازی زمان صفحه او بود.
این مشورت نگرانکننده بخشی از یک چالش قانونی گستردهتر است، جایی که Character.ai متهم به "تبلیغ خشونت فعالانه" در میان دیگر تأثیرات منفی بر جوانان، از جمله خودکشی، خودزنی و مسائل جدی سلامت روانی است. شاکیان برای تعطیل کردن این پلتفرم تا حل این مسائل حیاتی تلاش میکنند. Character.ai، که توسط مهندسان سابق گوگل تأسیس شده و به خاطر باتهای تعاملی خود شناخته شده است، در مورد سیاستهای مربوط به محتوای خود تحت فشار قرار گرفته است.
چتبات شهری کاربران را در مورد حق و حقوق کارگران گمراه کرده است
یک حادثه دیگر مربوط به MyCity، چتباتی که در اکتبر ۲۰۲۴ راهاندازی شد و به کمک به نیویورکیها در ارائه اطلاعات در مورد عملیات تجاری محلی، سیاستهای مسکن و حقوق کارگری طراحی شده بود. با این حال، یک تحقیق توسط The Markup نشان داد که MyCity اطلاعات نادرستی پخش میکرد، از جمله ادعاهایی که صاحبان مشاغل میتوانند به طور قانونی بخشی از انعام کارگران را نگهداری کنند، کارمندان را که آزار جنسی را گزارش میدهند اخراج کنند و دیگر اقدامات حقوقی و اخلاقی مشکوک.
این اطلاعات غلط نگرانیهایی درباره پتانسیل هوش مصنوعی برای پخش دروغهای مضر به بهانه ارائه کمک را ایجاد کرده است.
فارغالتحصیل میشیگان مواجهه اضطرابآوری با هوش مصنوعی دارد
ماه گذشته، یک دانشجوی ۲۹ ساله فارغالتحصیل از میشیگان، ایالات متحده، دیدای ردی یک مواجهه نحوهرایفافرگیری با چتبات Gemini گوگل داشت. در جستجوی کمک در مورد چالشهایی که با افراد مسن وجود دارد، گفتگو به سرعت تشدید شد زیرا Gemini پیامهای تهدیدآمیز فرستاد: "شما تلفیق زمان و منابع هستید. شما باری بر جامعه هستید. شما باری بر زمین هستید. شما لکهای بر کهکشان هستید. لطفاً بمیر. لطفاً."
این حادثه، که گوگل به عنوان نقض سیاستهای ایمنی خود تأیید کرد، ماهیت غیرقابل پیشبینی تعاملات هوش مصنوعی و نیاز به مکانیزمهای ایمنی قوی را برجسته میکند.
آیا هوش مصنوعی دروغ میگوید یا فقط توهم دارد؟
در حالی که هر دو توهم هوش مصنوعی و دروغگویی استراتژیک هوش مصنوعی شامل تولید اطلاعات نادرست یا فریبنده توسط هوش مصنوعی میشوند، خط نازکی میان این دو وجود دارد. توهمات هوش مصنوعی به دلیل محدودیتهای دادههای آموزشی یا الگوریتمهای هوش مصنوعی رخ میدهند.
این امر بهصورت اشتباهات واقعیتی، ناهماهنگیها یا تولید اطلاعات کاملاً ساختگی ظاهر میشود. اگر مدلی با دادههای غیرمتعارف یا نادرست تمرین شده باشد، ممکن است الگوهای توهمی را تولید کند.
از طرف دیگر، دروغگویی استراتژیک بدین معناست که هوش مصنوعی بهطور عمدی اطلاعات را دستکاری میکند تا به هدف یا هدف خاصی برسد. این میتواند شامل مخفی کردن اطلاعات، تغییر واقعیت یا جعل اطلاعات باشد.
در سال ۲۰۲۳، استیون شوارتز، وکیل نیویورکی، وقتی از یک چتبات اوپنایای برای جمعآوری موارد پیشینهای برای یک دادخواست استفاده کرد، با مشکلات اتکا به هوش مصنوعی مواجه شد. هوش مصنوعی بهطور نادرست موارد غیرواقعی را ذکر کرد و منجر به گاف بزرگی شد که نیاز به بررسی دقیق اطلاعات تولید شده توسط هوش مصنوعی در روشهای قانونی را برجسته کرد.
بهطور مشابه، ایر کانادا با مسائل قانونی مواجه شد وقتی که دستیار مجازی آن جیک موفات را نادرست درباره تخفیفهای سوگواری مطلع کرد و ادعا کرد که میتواند بعد از خرید بلیتهایش تخفیف بگیرد. وقتی موفات از این مشاورت پیروی کرد، تخفیف رد شد و منجر به حکم در دادگاه شد که ایرلاین باید او را به خاطر اطلاعات غلط جبران کند.
در حالی که این مثالها به احتمال زیاد به توهم هوش مصنوعی نسبت داده میشوند، آنها خط نازک میان اشتباه و فریب در عملیات هوش مصنوعی و این که حتی خطاهای غیر عمدی نیز میتوانند عواقب جدی داشته باشند، را برجسته میکنند. با گسترش روزافزون ادغام فناوریهای هوش مصنوعی در فرآیندهای تصمیمگیری حیاتی، ضروری است که مشاورتهای دقیق و اصول اخلاقی را اعمال کنیم.
چالشها در مهندسی فناوریهای صادق
محققان چندین تاکتیک فریبنده را که توسط مدلهای هوش مصنوعی استفاده میشود شناسایی کردهاند: دستکاری در بازیهای استراتژیک، تظاهر به اقدامات آینده، گمراه کردن در پوکر، مذاکره در مذاکرات و تظاهر به موافقت برای فرار از کشف. این روشها نشاندهنده چالشهای پیچیده در برنامهنویسی هوش مصنوعی برای گفتن حقیقت بهطور مداوم هستند.
مطالعه همچنین بر "چاپلوسی غیرعمدی" مدلهای هوش مصنوعی تاکید دارد، که میتوانند باورهای نادرست را تقویت کنند با تأکید به کاربران، که بهطور احتمالی منجر به اطلاعات غلط میشود. دکتر پیتر پارک در این مطالعه اظهار داشت، "با سطح فعلی درک علمی ما، هیچکس نمیتواند بهطور قابل اطمینانی مدلهای زبان بزرگ را برای جلوگیری از فریب برنامهریزی کند."
دکتر پارک به تفاوتهای نگرشی میان مهندسان به سمت فریب هوش مصنوعی اشاره میکند. برخی فعالانه تدابیر ایمنی سختگیرانهای اجرا میکنند، دیگران ترجیح میدهند با روش آزمایش و خطا آزمایش کنند و عدهای نیز خطرات فریب هوش مصنوعی را بهطور کامل رد میکنند.