تکنولوژی
آشکارساز هوش مصنوعی جدید جان هاپکینز مقالات نوشته شده توسط ماشین و اخبار جعلی را فاش میکند. اینگونه است که
محققان در دانشگاه جانز هاپکینز ابزاری جدید ارائه کردهاند که میتواند تشخیص دهد آیا یک متن توسط هوش مصنوعی نوشته شده است یا خیر. این ابزار میتواند تفاوتهای ظریف در سبکهای نوشتاری را تشخیص دهد و حتی مدلهای زبان بزرگ خاصی مانند ChatGPT یا LLaMA را شناسایی کند. این فناوری بر اساس تحقیقاتی است که نشان میدهند متنهای ایجاد شده توسط هوش مصنوعی دارای ویژگیهای قابل شناسایی مشابه با نوشتههای انسانی هستند. این ابزار با نمونههایی از نوشتههای ناشناس در Reddit آموزش داده شده و به صورت رایگان قابل دسترسی است. محققان امیدوارند که این کار بتواند کنترلهای قویتری بر برنامههای هوش مصنوعی اعمال کند و مشخص کند کدامها احتمال سوء استفاده بیشتری دارند.
با هوشمندتر و پیچیدهتر شدن برنامههای هوش مصنوعی، تشخیص اینکه آیا با یک انسان یا هوش مصنوعی در ارتباط هستید یا اینکه آیا هوش مصنوعی در نوشتن مقالهای که به تازگی خواندهاید دخالت داشته است، دشوارتر میشود — یک فرصت برای تقلبکنندگان و فروشندگان اطلاعات نادرست.
ابزاری جدید از محققان دانشگاه جانز هاپکینز راهی ارائه میدهد تا تشخیص دهید آیا یک نوشته توسط هوش مصنوعی ایجاد شده است و همچنین میتواند مشخص کند که کدام مدل زبان بزرگ خاص در این فرآیند دخالت داشت. این بر مبنای این ایده است که سبک نوشتاری یک فرد ویژگیهای منحصر به فرد خود را دارد که میتوان آنها را شناسایی کرد، همانطور که نوشتاری توسط برنامهای هوش مصنوعی.
به گفته نیکلاس اندروز، یک دانشمند ارشد پژوهشی در مرکز برتری فناوری زبان انسانی جانز هاپکینز، تیم او اولین کسانی بودند که نشان دادند متنهای ایجاد شده توسط هوش مصنوعی حاوی همان ویژگیهای قابل شناساییای هستند که در نوشتارهای انسانی یافت میشود. این ویژگیها به پژوهشگران اجازه میدهد تا متنهای هوش مصنوعی را شناسایی کرده و با مدل زبانی خاصی هماهنگ کنند.
دانشمندان اعتقاد دارند که کار آنها میتواند به کنترلهای قویتر بر برنامههای هوش مصنوعی منجر شود و تعیین کند کدامها احتمال سوء استفاده بالاتری دارند. در دورهای از اطلاعات جعلی و اسپم آنلاین و افزایش سرقت ادبی در مدارس، شناسایی متنهای ایجاد شده توسط هوش مصنوعی میتواند بیقیمت باشد.
اندروز در ابتدا در سال ۲۰۱۶ به این موضوع علاقهمند شد تا با اطلاعات نادرست آنلاین و نگرانیها از نفوذ خارجی بر رسانههای اجتماعی، به ویژه در دورههای انتخاباتی ایالات متحده مبارزه کند. حتی قبل از ظهور ChatGPT و LLMهای مشابه، اندروز برای ایجاد یک اثر انگشت از یک شخص آنلاین کار کرد که میتوانست برای شناسایی جعلیها استفاده شود.
"بزرگترین شگفتی این بود که ما سیستم را بدون قصد برای اعمال آن بر نوشتههای ماشینی ساخته بودیم و مدل قبل از وجود ChatGPT آموزش دیده بود،" محقق گفت. "اما ویژگیهایی که به تمایز نویسندگان انسانی از یکدیگر کمک کرد، بسیار موفق در شناسایی اثر انگشت نوشتارهای ماشینی بود."
برنامهای که او توسعه داد میتواند تعیین کند که آیا ChatGPT، جمینی یا LLaMA برای ایجاد یک نوشته استفاده شده، با تمرکز بر اثر انگشتهای زبانی خاص هر مدل که آنها را از نویسندگان انسانی و ماشینی متمایز میکند.
ابزار شناسایی که توسط اندروز و تیم او توسعه یافته بود بر روی نمونههای ناشناس نوشتهای گرفتهشده از Reddit آموزش داده شد. این ابزار به هر زبانی کار میکند و به صورت آنلاین برای دانلود رایگان است.
در حالی که ابزارهای شناسایی هوش مصنوعی دیگر مانند Turnitin یا GPTZero وجود دارند، تیم معتقد است روش آنها بسیار انعطافپذیر و دقیقتر است.
همانطور که اندروز توضیح داد، مفهومی که آنها استفاده کردند از خدمات اجرای قانون نشأت گرفت که یاد گرفتند تا یادداشتهای باج خواهی و نوشتههای مجرمان مشکوک را تحلیل کنند تا آنها را به افراد مرتبط کنند. اندروز و تیمش این را مقیاسگذاری کردند. آنها از شبکههای عصبی و "مقدار زیادی داده" به جای انسانها برای تصمیمگیری در مورد ویژگیهای نوشتاری که باید شناسایی شود، استفاده کردند.
به جز اندروز، نویسندگان پروژه شامل دانشجوی دکترای جانز هاپکینز، علیم خان، کایلین کوخ و بَری چِن از آزمایشگاه ملی لارنس لیورمور، و مارکوس بیشاپ از وزارت دفاع ایالات متحده بودند.
اینجنیرینگ جالب با نیکلاس اندروز برای درک انحصاری در مورد کار آنها تماس گرفت. در یک تبادل ایمیل، اندروز چند نمونه از اثرات انگشت زبانی که به ابزار آنها اجازه میدهد تا نوشتار هوش مصنوعی را شناسایی کند، به اشتراک گذاشت.
"شبکه عصبی نمایههای ۵۱۲ بُعدیای استخراج میکند که هر نمونه نوشتهای که با آن ارائه میشود را توصیف میکند ("اثر انگشتها")،" او نوشت. این اجازه میدهد مدل آنها ویژگیهای بسیار پیچیده نوشتار را که زبانشناسان جرمشناسی انسانی که به تحلیل میپردازند دشوار و تقریباً غیرممکن است به تصویف برساند، به دست بگیرد.
او ذکر کرد که این روش "یادگیری عمیق" یک نقطه ضعف دارد: اثر انگشتها بلافاصله قابل تفسیر نیستند. با این حال، محققان کار اضافی انجام دادهاند تا بهطور نزدیک بفهمند مدلها چه چیزی را میآموزند. یک نمونهای که او به اشتراک گذاشت این بود که آنها یافتند اثرات انگشت به طور عمده به روی کلمات محتوایی (مثل نامها) بسیار مقاوم بودند. این نشان میداد که مدلها بیشتر بر سبک نوشتن تمرکز میکنند تا بر روی موضوعات.
همانطور که اندروز بسط داد، در مقاله خود "تعداد کم شناسایی متنهای ایجاد شده توسط ماشین با استفاده از نمایههای سبک،" تیم به دو "حمله" به روش خود اشاره کرد – در یکی از آنها، هوش مصنوعی را ترغیب کردند تا به سبک واقعی یک نمونه انسانی بنویسد، و برای روش دوم، بخشهایی از سند ایجاد شده توسط هوش مصنوعی را پارافراز کردند. این یک روش شناخته شده است برای کاهش عملکرد آشکارسازهای متن ماشینی.
به شگفتی خود، محققان دریافتند که اولین رویکرد نوشتن به سبک انسانی به ویژه موفق در فریب آشکارساز هوش مصنوعی نبود. این به این معنا بود که LLMها میتوانند سبکهای انسانی را فقط بهصورت سطحی تقلید کنند. دومین روش، روش پارافراسی، مثمر ثمرتر در بدتر کردن عملکرد ابزارشان بود، که آنها را ترغیب به بهبود عملکردش کرد.
آنها یک "اثر انگشت" برای مدل پارافراسی ایجاد کردند که به شناسایی تغییرات متنی به آن شکل کمک کرد. با این حال، محققان اذعان دارند که این روش، که در آن یک انسان متن هوش مصنوعی را میگیرد و آن را بهصورت دستی پارافراز میکند، هنوز هم یک روش ممکن برای فرار از شناسایی است زیرا نیاز دارد آنها بهطور تحصیلی حدس بزنند که "متقابلان احتمالی" که ممکن است تصمیم بگیرند این کار را انجام دهند، چگونه ممکن است این متنها را پارافراز کنند.
یک روش برای رسیدگی به این مسئله، به ویژه در یک محیط کلاسی جایی که یک معلم میخواهد اطمینان حاصل کند که دانشآموزان مطالب ایجاد شده توسط هوش مصنوعی را ارائه نمیدهند و شناسایی را شکست میدهند، استفاده از نوشتههای گذشته دانشآموزان برای آموزش ابزار به جهت یادگیری سبکهای نوشتاری قبلی آنها است.
همانطور که اندروز به اشتراک گذاشت، مدلی که آنها منتشر کردند میتواند توسط هر کسی با دانشی بنیادی از برنامهنویسی پایتون برای استخراج "اثر انگشتها" از هر نمونه نوشتهای استفاده شود. این اثر انگشتها میتوانند بهطور دقیق نوشتار توسط مدلهای هوش مصنوعی مانند GPT-4 را شناسایی کنند.
"چیزی که در مورد رویکرد ما جدید است این است که به کاربران نهایی این امکان را میدهد که به سادگی آشکارسازهای تخصصی برای تنظیمات خاص خود ایجاد کنند،" او بیان کرد، افزود، "برای مثال، یک استاد دانشگاه میتواند بهصورت پیشگیرانه GPT-4 یا مدلهای دیگر که مشکوک به کپیبرداری از آنها توسط دانشجویان است، را تحریک کند تا "اثر انگشت"ی متناسب با تنظیم خاص خود ایجاد کند." آزمایشهای تیم نشان میدهد که این میتواند آشکارسازهای بسیار "قوی" با "نرخهای هشداردهی کاذب بسیار پایین (<۱%)" تولید کند.
جالب است که وقتی تیم بهتازگی کار خود را در کنفرانس بینالمللی یادگیری نمایهها ارائه کردند، نویسنده اصلی رافائل ریورا سوتو، یک دانشجوی سال اول دکترای جان هاپکینز که توسط اندروز مشاوره میشود، دمویی از این ابزار با برخی نتایج آموزنده ایجاد کرد. وقتی او همه مرورهای همتا از کنفرانس را از طریق آشکارساز آنها اجرا کرد، تقریباً ۱۰ درصد از مرورها به احتمال زیاد بهصورت ماشینی ایجاد شده بودند.