امروزه تقریباً همه افراد تجربه شنیدن صدای هوش مصنوعی (AI) را داشتهاند؛ چه از طریق دستیارهای صوتی مانند سیری یا الکسا که با لحن یکنواخت و حالت مکانیکی خود به ما حس میدادند بهراحتی میتوانیم تفاوت میان صدای واقعی انسان و صدای تولیدشده توسط ماشین را تشخیص دهیم. اما اکنون دانشمندان اعلام کردهاند که شنونده معمولی دیگر قادر نیست تفاوت میان صدای انسان واقعی و صدای مصنوعی موسوم به «دیپفیک» که اخیراً بسیار پیشرفته شده را تشخیص دهد.
در یک پژوهش جدید که در تاریخ 24 سپتامبر 2025 (2 مهر 1404) در مجله PLoS One منتشر شد، محققان نشان دادند زمانی که افراد به صدای انسانها گوش میدهند و در کنار آن نسخههای هوشمصنوعی همان صداها را نیز میشنوند، نمیتوانند با دقت تشخیص دهند کدام صدا واقعی و کدام ساختگی است.
نادین لاوان (Nadine Lavan)، استاد ارشد روانشناسی در دانشگاه ملکه ماری لندن (Queen Mary University of London) و نویسنده اصلی این پژوهش در بیانیهای عنوان کرد: امروزه صداهای تولیدشده توسط هوش مصنوعی در همهجا اطراف ما وجود دارند. همه ما با الکسا یا سیری صحبت کردهایم یا تماسهایی داشتهایم که توسط سیستمهای خودکار خدمات مشتری پاسخ داده شدهاند.

او افزود: این صداها هنوز کاملاً شبیه انسان به نظر نمیرسند، اما تنها مسئله زمان بود تا فناوری هوش مصنوعی بتواند گفتاری طبیعی و انسانی تولید کند.
این مطالعه نشان داد در حالی که صداهای عمومی و از پایه تولیدشده (یعنی بدون تقلید از فردی خاص) هنوز واقعی به نظر نمیرسند، اما صداهای شبیهسازیشدهای که بر اساس صدای افراد واقعی آموزش داده شدهاند (یا همان صدای دیپفیک) به اندازه نسخههای واقعی خود قابل باور هستند.
برای انجام این پژوهش، دانشمندان 80 نمونه صدا (شامل 40 صدای تولیدشده توسط هوش مصنوعی و 40 صدای واقعی انسانی) را به شرکتکنندگان ارائه کردند و از آنان خواستند مشخص کنند کدام صدا واقعی و کدام مصنوعی است. بهطور میانگین، تنها 41٪ از صداهای ساختهشده از پایه به اشتباه بهعنوان صدای انسانی شناسایی شدند که نشان میدهد هنوز در بسیاری از موارد میتوان تفاوت را تشخیص داد.
اما در مورد صداهای شبیهسازیشده از انسان، اکثریت یعنی 58٪ از نمونهها به اشتباه صدای انسانی تلقی شدند. در مقابل، تنها 62٪ از صداهای واقعی بهدرستی بهعنوان انسانی شناخته شدند. بر همین اساس، پژوهشگران نتیجه گرفتند که از نظر آماری، توانایی انسان در تشخیص صدای واقعی از صدای دیپفیک تقریباً از بین رفته است.
پیامدهایی غیرقابلپیشبینی
به گفته لاوان، نتایج این پژوهش پیامدهای عمیقی در حوزههای اخلاق، حقوق مالکیت معنوی و امنیت دارد. او هشدار داد: «اگر مجرمان از فناوری برای شبیهسازی صدای شما استفاده کنند، تشخیص جعل بسیار دشوار خواهد شد و ممکن است حتی بتوانند سیستمهای احراز هویت صوتی در بانکها را دور بزنند یا نزدیکانتان را فریب دهند تا پول انتقال دهند.»نمونههای واقعی از این اتفاقها هم وجود دارد. برای مثال، در تاریخ 9 جولای 2025 (18 تیر 1404)، زنی به نام شارون برایتوِل (Sharon Brightwell) با تماس تلفنی روبهرو شد که صدایی شبیه دخترش گریهکنان به او گفت در تصادف بوده و برای هزینه وکیل نیاز به پول دارد تا از زندان آزاد شود. او بعداً گفت: «هیچکس نمیتوانست مرا قانع کند که آن صدا متعلق به دخترم نبود.» در واقع، صدایی که شنیده بود، یک جعل هوش مصنوعی فوقالعاده واقعی بود که موجب از دست رفتن 15,000 دلار شد.
چنین صداهایی همچنین میتوانند برای ساخت مصاحبههای جعلی یا اظهارات دروغین از زبان سیاستمداران و افراد مشهور استفاده شوند. فایلهای صوتی جعلی ممکن است برای بیاعتبار کردن افراد یا ایجاد آشوب و تفرقه اجتماعی به کار روند. برای نمونه، اخیراً کلاهبردارانی با استفاده از صدای شبیهسازیشده از استیون مایلز (Steven Miles)، نخستوزیر ایالت کوئینزلند (Queensland) در استرالیا، مردم را تشویق کردند در یک طرح کلاهبرداری بیتکوین سرمایهگذاری کنند.
پژوهشگران تأکید کردند که صداهای شبیهسازیشده در این تحقیق حتی بسیار پیشرفته هم نبودند. آنها با استفاده از نرمافزارهای تجاری در دسترس عموم و تنها با چهار دقیقه ضبط صدای انسانی توانستند این شبیهسازیها را انجام دهند. لاوان در ادامه توضیح داد: «این فرایند به مهارت خاصی نیاز نداشت؛ فقط چند دقیقه صدای انسانی، اندکی نرمافزار و تقریباً هیچ هزینهای. این نشان میدهد فناوری صداهای هوش مصنوعی تا چه اندازه در دسترس و پیشرفته شده است.»
با این حال، همه چیز منفی نیست. هرچند فناوری دیپفیک میتواند ابزار خطرناکی در دست افراد مخرب باشد، اما فرصتهای مثبتی نیز در آن نهفته است. لاوان افزود: «ممکن است از این فناوری برای بهبود دسترسپذیری، آموزش و ارتباطات استفاده شود؛ جایی که صداهای مصنوعی باکیفیت و شخصیسازیشده میتوانند تجربه کاربری را ارتقا دهند.
دیدگاهتان را بنویسید