یکی از جوانب هوش مصنوعی که بعضی اوقات نادیده گرفته می شود، توانایی آن در جعل ویدیو و صدا است. ظهور فناوری های پردازش تصویری مانند فتوشاپ، ما را وادار کرد تا حتی به چشمان خود نیز اعتماد نکنیم. اما چه اتفاقی خواهد افتاد اگر ما نتوانیم به حسهای دیگرمان هم اعتماد کنیم؟ یکی از مثالهای اخیر جادوی صوتی و تصویری هوش مصنوعی توسط دانشگاه واشنگتون منتشر شده است. در این تحقیق، محققان ابزاری خلق کردهاند که فایلهای صوتی دریافت میکند و آنها را تبدیل به حرکات نسبتاً واقعی لب و دهان هنگام صحبت میکند که میتوان آنهارا روی یک فایل ویدیویی دیگر گذاشت.
نتیجه ی پایانی این ابزار ویدیویی از کسی است در حال گفتن سخنانی که هیچ وقت نگفته است(یا حداقل در زمان ضبط آن فیلم). این پروسه کمی پیچیده به نظر می آید، پس نگاهی به ویدیوی زیر بیاندازید:
در ویدیوی بالا میتوانید دو تصویر از باراک اوباما را ببینید. تصویر سمت چپ منبع استفاده شده برای صدا است، و تصویر سمت راست یک سخنرانی کاملاً متفاوت است که با استفاده از الگوریتم محققین با صدای تصویر سمت چپ انطباق داده شده است. نتیجه ی پایانی این پروسه بی اشکال نیست(برای مثال تار شدن حرکات دهان که معمولاً در پردازش تصویری توسط هوش مصنوعی رخ می دهد) امّا در کل بسیار متقاعد کننده است.
دلیل استفاده ی محققین از ویدیو های باراک اوباما، وفور محتوا و سخنرانیهای مختلف از رئیس جمهور سابق آمریکا است، که در آموزش شبکه ی عصبی هوش مصنوعی کمک بسیاری می کند. به گفته ی Ira Kemelmacher حدود ۱۷ ساعت ویدیو برای تقلید حرکات دهان نیاز است امّا در آینده حد مورد نیاز آموزشها را میتوان به ۱ ساعت کاهش داد. تیم خالق این ابزار ادعا دارند که می تان از این فناوری در افزایش کیفیت تماس های ویدیویی مثل Skype استفاده کرد. کاربران میتوانند محتوای ویدیویی از خود را به این ابزار بدهند تا آن را آموزش دهند و پس از این، هوش مصنوعی این ابزار میتواند فقط با استفاده از صدای کاربر، ویدیویی از او در حال صحبت به صورت زنده بسازد. این پروسه میتواند در مناطقی که اینترنت پرسرعت ندارند و یا هنگامی که قصد استفاده از دیتای موبایل را ندارید، کاربردی باشد.
البته این نگرانی وجود دارد که از این ابزار برای سوءاستفاده و یا ساخت خبر های جعلی استفاده شود. تصور کنید فقط با چند دقیقه از صوت کسی بتوان ویدیویی جعلی از او ساخت و آینده کمی ترسناک تر می شود. تحقیقاتی شبیه به این در رابطه با فناوری ساخت مدل های سه بعدی با استفاده از تصویر اشخاص نیز با موفقیت انجام شده است. تیم سازندگان این ابزار سعی بر دوری از اینگونه استفاده ها دارند و بر این تأکید داشتند که شبکه ی عصبی آنها فقط با استفاده از صوت و تصویر باراک اوباما به این نتایج رسیده است و اینکه ترکیب صوت و تصویر اشخاص مختلف هنوز ممکن نیست. پروفسور استیو سایتز در بیانیه ای اعلام کرد:”ما آگاهانه بر علیه حرف گذاشتن در دهان مردم هستیم.” اما این فناوری به صورت نظری میتواند صدای هرکسی را به صورت هر کسی بنگارد. آیا اگر این فناوری به طور گسترده همه جا استفاده شود، برخورد مردم با آن موشکافانه خواهد بود؟
دیدگاهتان را بنویسید