مرز میان صدای واقعی و هوش مصنوعی از بین رفت؛ دیپ‌فیک‌ها ترسناک‌تر از همیشه!

توسط مهرانه راجعی ·14 مهر 140414 مهر 1404· 0

امروزه تقریباً همه افراد تجربه شنیدن صدای هوش مصنوعی (AI) را داشته‌اند؛ چه از طریق دستیارهای صوتی مانند سیری یا الکسا که با لحن یکنواخت و حالت مکانیکی خود به ما حس می‌دادند به‌راحتی می‌توانیم تفاوت میان صدای واقعی انسان و صدای تولیدشده توسط ماشین را تشخیص دهیم. اما اکنون دانشمندان اعلام کرده‌اند که شنونده‌ معمولی دیگر قادر نیست تفاوت میان صدای انسان واقعی و صدای مصنوعی موسوم به «دیپ‌فیک» که اخیراً بسیار پیشرفته شده را تشخیص دهد.

در یک پژوهش جدید که در تاریخ 24 سپتامبر 2025 (2 مهر 1404) در مجله PLoS One منتشر شد، محققان نشان دادند زمانی که افراد به صدای انسان‌ها گوش می‌دهند و در کنار آن نسخه‌های هوش‌مصنوعی همان صداها را نیز می‌شنوند، نمی‌توانند با دقت تشخیص دهند کدام صدا واقعی و کدام ساختگی است.

نادین لاوان (Nadine Lavan)، استاد ارشد روان‌شناسی در دانشگاه ملکه ماری لندن (Queen Mary University of London) و نویسنده اصلی این پژوهش در بیانیه‌ای عنوان کرد: امروزه صداهای تولیدشده توسط هوش مصنوعی در همه‌جا اطراف ما وجود دارند. همه ما با الکسا یا سیری صحبت کرده‌ایم یا تماس‌هایی داشته‌ایم که توسط سیستم‌های خودکار خدمات مشتری پاسخ داده شده‌اند.

مرز میان صدای واقعی و هوش مصنوعی از بین رفت؛ دیپ‌فیک‌ها ترسناک‌تر از همیشه!

او افزود: این صداها هنوز کاملاً شبیه انسان به نظر نمی‌رسند، اما تنها مسئله زمان بود تا فناوری هوش مصنوعی بتواند گفتاری طبیعی و انسانی تولید کند.

این مطالعه نشان داد در حالی که صداهای عمومی و از پایه تولیدشده (یعنی بدون تقلید از فردی خاص) هنوز واقعی به نظر نمی‌رسند، اما صداهای شبیه‌سازی‌شده‌ای که بر اساس صدای افراد واقعی آموزش داده شده‌اند (یا همان صدای دیپ‌فیک) به اندازه نسخه‌های واقعی خود قابل باور هستند.

برای انجام این پژوهش، دانشمندان 80 نمونه صدا (شامل 40 صدای تولیدشده توسط هوش مصنوعی و 40 صدای واقعی انسانی) را به شرکت‌کنندگان ارائه کردند و از آنان خواستند مشخص کنند کدام صدا واقعی و کدام مصنوعی است. به‌طور میانگین، تنها 41٪ از صداهای ساخته‌شده از پایه به اشتباه به‌عنوان صدای انسانی شناسایی شدند که نشان می‌دهد هنوز در بسیاری از موارد می‌توان تفاوت را تشخیص داد.

اما در مورد صداهای شبیه‌سازی‌شده از انسان، اکثریت یعنی 58٪ از نمونه‌ها به اشتباه صدای انسانی تلقی شدند. در مقابل، تنها 62٪ از صداهای واقعی به‌درستی به‌عنوان انسانی شناخته شدند. بر همین اساس، پژوهشگران نتیجه گرفتند که از نظر آماری، توانایی انسان در تشخیص صدای واقعی از صدای دیپ‌فیک تقریباً از بین رفته است.

پیامدهایی غیرقابل‌پیش‌بینی

به گفته لاوان، نتایج این پژوهش پیامدهای عمیقی در حوزه‌های اخلاق، حقوق مالکیت معنوی و امنیت دارد. او هشدار داد: «اگر مجرمان از فناوری برای شبیه‌سازی صدای شما استفاده کنند، تشخیص جعل بسیار دشوار خواهد شد و ممکن است حتی بتوانند سیستم‌های احراز هویت صوتی در بانک‌ها را دور بزنند یا نزدیکانتان را فریب دهند تا پول انتقال دهند.»نمونه‌های واقعی از این اتفاق‌ها هم وجود دارد. برای مثال، در تاریخ 9 جولای 2025 (18 تیر 1404)، زنی به نام شارون برایت‌وِل (Sharon Brightwell) با تماس تلفنی روبه‌رو شد که صدایی شبیه دخترش گریه‌کنان به او گفت در تصادف بوده و برای هزینه وکیل نیاز به پول دارد تا از زندان آزاد شود. او بعداً گفت: «هیچ‌کس نمی‌توانست مرا قانع کند که آن صدا متعلق به دخترم نبود.» در واقع، صدایی که شنیده بود، یک جعل هوش مصنوعی فوق‌العاده واقعی بود که موجب از دست رفتن 15,000 دلار شد.

چنین صداهایی همچنین می‌توانند برای ساخت مصاحبه‌های جعلی یا اظهارات دروغین از زبان سیاستمداران و افراد مشهور استفاده شوند. فایل‌های صوتی جعلی ممکن است برای بی‌اعتبار کردن افراد یا ایجاد آشوب و تفرقه اجتماعی به کار روند. برای نمونه، اخیراً کلاهبردارانی با استفاده از صدای شبیه‌سازی‌شده از استیون مایلز (Steven Miles)، نخست‌وزیر ایالت کوئینزلند (Queensland) در استرالیا، مردم را تشویق کردند در یک طرح کلاهبرداری بیت‌کوین سرمایه‌گذاری کنند.

پژوهشگران تأکید کردند که صداهای شبیه‌سازی‌شده در این تحقیق حتی بسیار پیشرفته هم نبودند. آن‌ها با استفاده از نرم‌افزارهای تجاری در دسترس عموم و تنها با چهار دقیقه ضبط صدای انسانی توانستند این شبیه‌سازی‌ها را انجام دهند. لاوان در ادامه توضیح داد: «این فرایند به مهارت خاصی نیاز نداشت؛ فقط چند دقیقه صدای انسانی، اندکی نرم‌افزار و تقریباً هیچ هزینه‌ای. این نشان می‌دهد فناوری صداهای هوش مصنوعی تا چه اندازه در دسترس و پیشرفته شده است.»

با این حال، همه چیز منفی نیست. هرچند فناوری دیپ‌فیک می‌تواند ابزار خطرناکی در دست افراد مخرب باشد، اما فرصت‌های مثبتی نیز در آن نهفته است. لاوان افزود: «ممکن است از این فناوری برای بهبود دسترس‌پذیری، آموزش و ارتباطات استفاده شود؛ جایی که صداهای مصنوعی باکیفیت و شخصی‌سازی‌شده می‌توانند تجربه کاربری را ارتقا دهند.

برچسب‌ها: هوش مصنوعی

امتیاز: 5.0 از 5 (4 رای)

کمی صبر کنید...

دیدگاهتان را بنویسید لغو پاسخ

در صورتی که نظر شما حاوی ناسزا، عبارات توهین‌آمیز و تهدید بوده و در تضاد با قوانین فعلی کشور باشد از انتشار آن بدون حذف موارد ذکر شده، معذوریم.
شکلک‌ها (اموجی‌ها) را می‌توانید با کیبرد گوشی یا کیبرد مجازی ویندوز قرار دهید.
تصاویر نویسندگان دیدگاه از Gravatar گرفته می‌شود.