دیپفیک و تقلید صدا: چرا شناسایی از سنتز در دوران مدلهای زبان بزرگ عقب میماند
نی تائو ستوننویس Inside China است و نگاهی انحصاری به اکوسیستم فناوری و مهندسی چین ارائه میدهد. ستون او مسائل و مباحثات پیرامون نوآوری چینی را بررسی کرده و دیدگاههای تازهای ارائه میدهد که در جای دیگری پیدا نمیشود.
افزایش مدلهای زبان بزرگ (LLMs) صنعت محتوای جهانی را به هم ریخته است.
یکی از نامطلوبترین محصولات جانبی LLMها موجی از جرایم مرتبط با دیپفیک است. این موارد استانداردهای امنیت اینترنت را به چالش کشیده و سطح اخلاق و حاکمیت هوش مصنوعی را بالا میبرد.
قانونگذاران در سراسر جهان در حال تلاش برای کنترل موج فریبهای دیپفیک که ناشی از سوءاستفاده از AI تولیدی و LLMها هستند، میباشند.
به گزارش The Verge مایکروسافت از اعضای کنگره آمریکا خواسته است تا با دیپفیکهای تولیدی AI که میتواند به فریب، سوءاستفاده و دستکاری منجر شود، مقابله کنند.
برد اسمیت، نایب رئیس و رئیس مایکروسافت، خواستار اقدام فوری قانونگذاران برای حفاظت از انتخابات، محافظت از سالمندان در مقابل فریب و حفاظت از کودکان در برابر سوءاستفاده شده است.
اسمیت گفت: “یکی از مهمترین کارهایی که ایالات متحده میتواند انجام دهد، تصویب قانونی جامع برای جلوگیری از کلاهبرداری دیپفیک است تا مجرمان سایبری نتوانند از این تکنولوژی برای سرقت از آمریکاییهای عادی استفاده کنند.”
او نوشت که مایکروسافت خواهان یک چارچوب قانونی جدید برای پیگرد قضایی کلاهبرداریها و سوءاستفادههای مربوط به AI است.
به اعتبار اسمیت، قانونگذاری میتواند به صورت بنیادی و سیستمی به ریشه برخی از مسائل مانند امنیت حریم خصوصی و سوءاستفاده از دادهها بپردازد.
تحت یک قانون جدید مربوط به اخلاق و حاکمیت AI، برچسبگذاری محتوای تولیدی AI ممکن است اجباری شود و مجازاتهای خاصی برای کلاهبرداران تعیین شود تا به عنوان یک بازدارنده عمل کند.
مناطق خاکستری و عدالت گریزان
مشکل قانونگذاری این است که همیشه مناطق خاکستری وجود خواهند داشت. در برخی موارد، عدالت گریزان است زیرا سخت است خط واضحی بین محتوای تولیدی AI برای سرگرمی و مواردی که برای کلاهبرداری استفاده میشود، کشید.
بزرگترین چالش در مقابله با کلاهبرداریهای دیپفیک در زمینه تکنیکی نهفته است، زیرا LLMها موجب پیچیده شدن تلاشها برای مهار دیپفیکها میشوند.
در حالی که ویدیوها و تصاویر کلاهبرداری توجه بیشتری را به خود جلب میکنند، کارشناسان صنعت میگویند جعل صدا تهدید بزرگتری در چین است. دلایل دوگانهای برای این امر وجود دارد.
از یک سو، گفتار انسان یک سیگنال پیوسته یکبعدی است که نیاز به منطق پردازش پیچیدهتری نسبت به تصاویر یا ویدیوهای دوبعدی دارد.
علاوه بر این، دیپفیکهای صوتی سختتر از تصاویر و ویدیوها قابل شناسایی هستند، زیرا شامل لهجهها، گویشها، عادات گفتاری، لحن و عوامل دیگر میشوند.
به طور سنتی، صدای جعلی که با استفاده از روشهای یادگیری عمیق مانند TTS (تبدیل متن به گفتار) و ASR (تشخیص خودکار گفتار) تولید میشود، آسانتر تشخیص داده میشود.
افزایش LLMها یک تغییر بزرگ است. با چند درخواست ساده میتوان صدا را به گونهای شبیهسازی کرد که افراد واقعی را تقلید کند به طوری که به قدری اصیل و انسانی به نظر بیاید که میتواند یک دوست نزدیک یا اعضای خانواده را فریب دهد.
نبرد 'اگر میتوانی مرا بگیر'
یک نبرد 'اگر میتوانی مرا بگیر' بین فریبکاران دیپفیک و کارشناسان AI وجود دارد که تلاش میکنند آنها را افشا کنند. به طرز شگفتآوری، دومیها که اغلب هوش و تعداد بیشتری دارند، با مشکل مواجهاند.
چرا که