آشکارساز هوش مصنوعی جدید جان هاپکینز مقالات نوشته شده توسط ماشین و اخبار جعلی را فاش می‌کند. اینگونه است که

با هوشمندتر و پیچیده‌تر شدن برنامه‌های هوش مصنوعی، تشخیص اینکه آیا با یک انسان یا هوش مصنوعی در ارتباط هستید یا اینکه آیا هوش مصنوعی در نوشتن مقاله‌ای که به تازگی خوانده‌اید دخالت داشته است، دشوارتر می‌شود — یک فرصت برای تقلب‌کنندگان و فروشندگان اطلاعات نادرست. ابزاری جدید از محققان دانشگاه جانز هاپکینز راهی ارائه می‌دهد تا تشخیص دهید آیا یک نوشته توسط هوش مصنوعی ایجاد شده است و همچنین می‌تواند مشخص کند که کدام مدل زبان بزرگ خاص در این فرآیند دخالت داشت. این بر مبنای این ایده است که سبک نوشتاری یک فرد ویژگی‌های منحصر به فرد خود را دارد که می‌توان آنها را شناسایی کرد، همانطور که نوشتاری توسط برنامه‌ای هوش مصنوعی. به گفته نیکلاس اندروز، یک دانشمند ارشد پژوهشی در مرکز برتری فناوری زبان انسانی جانز هاپکینز، تیم او اولین کسانی بودند که نشان دادند متن‌های ایجاد شده توسط هوش مصنوعی حاوی همان ویژگی‌های قابل شناسایی‌ای هستند که در نوشتارهای انسانی یافت می‌شود. این ویژگی‌ها به پژوهشگران اجازه می‌دهد تا متن‌های هوش مصنوعی را شناسایی کرده و با مدل زبانی خاصی هماهنگ کنند. دانشمندان اعتقاد دارند که کار آنها می‌تواند به کنترل‌های قوی‌تر بر برنامه‌های هوش مصنوعی منجر شود و تعیین کند کدام‌ها احتمال سوء استفاده بالاتری دارند. در دوره‌ای از اطلاعات جعلی و اسپم آنلاین و افزایش سرقت ادبی در مدارس، شناسایی متن‌های ایجاد شده توسط هوش مصنوعی می‌تواند بی‌قیمت باشد. اندروز در ابتدا در سال ۲۰۱۶ به این موضوع علاقه‌مند شد تا با اطلاعات نادرست آنلاین و نگرانی‌ها از نفوذ خارجی بر رسانه‌های اجتماعی، به ویژه در دوره‌های انتخاباتی ایالات متحده مبارزه کند. حتی قبل از ظهور ChatGPT و LLM‌های مشابه، اندروز برای ایجاد یک اثر انگشت از یک شخص آنلاین کار کرد که می‌توانست برای شناسایی جعلی‌ها استفاده شود. "بزرگترین شگفتی این بود که ما سیستم را بدون قصد برای اعمال آن بر نوشته‌های ماشینی ساخته بودیم و مدل قبل از وجود ChatGPT آموزش دیده بود،" محقق گفت. "اما ویژگی‌هایی که به تمایز نویسندگان انسانی از یکدیگر کمک کرد، بسیار موفق در شناسایی اثر انگشت نوشتارهای ماشینی بود." برنامه‌ای که او توسعه داد می‌تواند تعیین کند که آیا ChatGPT، جمینی یا LLaMA برای ایجاد یک نوشته استفاده شده، با تمرکز بر اثر انگشت‌های زبانی خاص هر مدل که آنها را از نویسندگان انسانی و ماشینی متمایز می‌کند. ابزار شناسایی که توسط اندروز و تیم او توسعه یافته بود بر روی نمونه‌های ناشناس نوشته‌ای گرفته‌شده از Reddit آموزش داده شد. این ابزار به هر زبانی کار می‌کند و به صورت آنلاین برای دانلود رایگان است. در حالی که ابزارهای شناسایی هوش مصنوعی دیگر مانند Turnitin یا GPTZero وجود دارند، تیم معتقد است روش آنها بسیار انعطاف‌پذیر و دقیق‌تر است. همانطور که اندروز توضیح داد، مفهومی که آنها استفاده کردند از خدمات اجرای قانون نشأت گرفت که یاد گرفتند تا یادداشت‌های باج خواهی و نوشته‌های مجرمان مشکوک را تحلیل کنند تا آنها را به افراد مرتبط کنند. اندروز و تیمش این را مقیاس‌گذاری کردند. آنها از شبکه‌های عصبی و "مقدار زیادی داده" به جای انسان‌ها برای تصمیم‌گیری در مورد ویژگی‌های نوشتاری که باید شناسایی شود، استفاده کردند. به جز اندروز، نویسندگان پروژه شامل دانشجوی دکترای جانز هاپکینز، علیم خان، کایلین کوخ و بَری چِن از آزمایشگاه ملی لارنس لیورمور، و مارکوس بیشاپ از وزارت دفاع ایالات متحده بودند. اینجنیرینگ جالب با نیکلاس اندروز برای درک انحصاری در مورد کار آنها تماس گرفت. در یک تبادل ایمیل، اندروز چند نمونه از اثرات انگشت زبانی که به ابزار آنها اجازه می‌دهد تا نوشتار هوش مصنوعی را شناسایی کند، به اشتراک گذاشت. "شبکه عصبی نمایه‌های ۵۱۲ بُعدی‌ای استخراج می‌کند که هر نمونه نوشته‌ای که با آن ارائه می‌شود را توصیف می‌کند ("اثر انگشت‌ها")،" او نوشت. این اجازه می‌دهد مدل آنها ویژگی‌های بسیار پیچیده نوشتار را که زبان‌شناسان جرم‌شناسی انسانی که به تحلیل می‌پردازند دشوار و تقریباً غیرممکن است به تصویف برساند، به دست بگیرد. او ذکر کرد که این روش "یادگیری عمیق" یک نقطه ضعف دارد: اثر انگشت‌ها بلافاصله قابل تفسیر نیستند. با این حال، محققان کار اضافی انجام داده‌اند تا به‌طور نزدیک بفهمند مدل‌ها چه چیزی را می‌آموزند. یک نمونه‌ای که او به اشتراک گذاشت این بود که آنها یافتند اثرات انگشت به طور عمده به روی کلمات محتوایی (مثل نام‌ها) بسیار مقاوم بودند. این نشان می‌داد که مدل‌ها بیشتر بر سبک نوشتن تمرکز می‌کنند تا بر روی موضوعات. همانطور که اندروز بسط داد، در مقاله خود "تعداد کم شناسایی متن‌های ایجاد شده توسط ماشین با استفاده از نمایه‌های سبک،" تیم به دو "حمله" به روش خود اشاره کرد – در یکی از آنها، هوش مصنوعی را ترغیب کردند تا به سبک واقعی یک نمونه انسانی بنویسد، و برای روش دوم، بخش‌هایی از سند ایجاد شده توسط هوش مصنوعی را پارافراز کردند. این یک روش شناخته شده است برای کاهش عملکرد آشکارسازهای متن ماشینی. به شگفتی خود، محققان دریافتند که اولین رویکرد نوشتن به سبک انسانی به ویژه موفق در فریب آشکارساز هوش مصنوعی نبود. این به این معنا بود که LLM‌ها می‌توانند سبک‌های انسانی را فقط به‌صورت سطحی تقلید کنند. دومین روش، روش پارافراسی، مثمر ثمرتر در بدتر کردن عملکرد ابزارشان بود، که آنها را ترغیب به بهبود عملکردش کرد. آنها یک "اثر انگشت" برای مدل پارافراسی ایجاد کردند که به شناسایی تغییرات متنی به آن شکل کمک کرد. با این حال، محققان اذعان دارند که این روش، که در آن یک انسان متن هوش مصنوعی را می‌گیرد و آن را به‌صورت دستی پارافراز می‌کند، هنوز هم یک روش ممکن برای فرار از شناسایی است زیرا نیاز دارد آنها به‌طور تحصیلی حدس بزنند که "متقابلان احتمالی" که ممکن است تصمیم بگیرند این کار را انجام دهند، چگونه ممکن است این متن‌ها را پارافراز کنند. یک روش برای رسیدگی به این مسئله، به ویژه در یک محیط کلاسی جایی که یک معلم می‌خواهد اطمینان حاصل کند که دانش‌آموزان مطالب ایجاد شده توسط هوش مصنوعی را ارائه نمی‌دهند و شناسایی را شکست می‌دهند، استفاده از نوشته‌های گذشته دانش‌آموزان برای آموزش ابزار به جهت یادگیری سبک‌های نوشتاری قبلی آنها است. همانطور که اندروز به اشتراک گذاشت، مدلی که آنها منتشر کردند می‌تواند توسط هر کسی با دانشی بنیادی از برنامه‌نویسی پایتون برای استخراج "اثر انگشت‌ها" از هر نمونه نوشته‌ای استفاده شود. این اثر انگشت‌ها می‌توانند به‌طور دقیق نوشتار توسط مدل‌های هوش مصنوعی مانند GPT-4 را شناسایی کنند. "چیزی که در مورد رویکرد ما جدید است این است که به کاربران نهایی این امکان را می‌دهد که به سادگی آشکارسازهای تخصصی برای تنظیمات خاص خود ایجاد کنند،" او بیان کرد، افزود، "برای مثال، یک استاد دانشگاه می‌تواند به‌صورت پیشگیرانه GPT-4 یا مدل‌های دیگر که مشکوک به کپی‌برداری از آن‌ها توسط دانشجویان است، را تحریک کند تا "اثر انگشت"ی متناسب با تنظیم خاص خود ایجاد کند." آزمایش‌های تیم نشان می‌دهد که این می‌تواند آشکارسازهای بسیار "قوی" با "نرخ‌های هشداردهی کاذب بسیار پایین (<۱%)" تولید کند. جالب است که وقتی تیم به‌تازگی کار خود را در کنفرانس بین‌المللی یادگیری نمایه‌ها ارائه کردند، نویسنده اصلی رافائل ریورا سوتو، یک دانشجوی سال اول دکترای جان هاپکینز که توسط اندروز مشاوره می‌شود، دمویی از این ابزار با برخی نتایج آموزنده ایجاد کرد. وقتی او همه مرورهای همتا از کنفرانس را از طریق آشکارساز آنها اجرا کرد، تقریباً ۱۰ درصد از مرورها به احتمال زیاد به‌صورت ماشینی ایجاد شده بودند.

توسط
Interesting Engineering
منبع
Interesting Engineering
Exit mobile version