هوش مصنوعی، جعل ویدیو و کیفیت تماس های تصویری

توسط امیرعلی ترکمن ·27 تیر 139627 تیر 1396· 1

یکی از جوانب هوش مصنوعی که بعضی اوقات نادیده گرفته می شود، توانایی آن در جعل ویدیو و صدا است. ظهور فناوری های پردازش تصویری مانند فتوشاپ، ما را وادار کرد تا حتی به چشمان خود نیز اعتماد نکنیم. اما چه اتفاقی خواهد افتاد اگر ما نتوانیم به حس‌های دیگرمان هم اعتماد کنیم؟ یکی از مثال‌های اخیر جادوی صوتی و تصویری هوش مصنوعی توسط دانشگاه واشنگتون منتشر شده است. در این تحقیق، محققان ابزاری خلق کرده‌اند که فایل‌های صوتی دریافت می‌کند و آن‌ها را تبدیل به حرکات نسبتاً واقعی لب و دهان هنگام صحبت می‌کند که میتوان آنهارا روی یک فایل ویدیویی دیگر گذاشت.

نتیجه ی پایانی این ابزار ویدیویی از کسی است در حال گفتن سخنانی که هیچ وقت نگفته است(یا حداقل در زمان ضبط آن فیلم). این پروسه کمی پیچیده به نظر می آید، پس نگاهی به ویدیوی زیر بیاندازید:

در ویدیوی بالا می‌توانید دو تصویر از باراک اوباما را ببینید. تصویر سمت چپ منبع استفاده شده برای صدا است، و تصویر سمت راست یک سخنرانی کاملاً متفاوت است که با استفاده از الگوریتم محققین با صدای تصویر سمت چپ انطباق داده شده است. نتیجه ی پایانی این پروسه بی اشکال نیست(برای مثال تار شدن حرکات دهان که معمولاً در پردازش تصویری توسط هوش مصنوعی رخ می دهد) امّا در کل بسیار متقاعد کننده است.

دلیل استفاده ی محققین از ویدیو های باراک اوباما، وفور محتوا و سخنرانی‌های مختلف از رئیس جمهور سابق آمریکا است، که در آموزش شبکه ی عصبی هوش مصنوعی کمک بسیاری می کند. به گفته ی Ira Kemelmacher حدود ۱۷ ساعت ویدیو برای تقلید حرکات دهان نیاز است امّا در آینده حد مورد نیاز آموزش‌ها را می‌توان به ۱ ساعت کاهش داد. تیم خالق این ابزار ادعا دارند که می تان از این فناوری در افزایش کیفیت تماس های ویدیویی مثل Skype استفاده کرد. کاربران می‌توانند محتوای ویدیویی از خود را به این ابزار بدهند تا آن را آموزش دهند و پس از این، هوش مصنوعی این ابزار می‌تواند فقط با استفاده از صدای کاربر، ویدیویی از او در حال صحبت به صورت زنده بسازد. این پروسه می‌تواند در مناطقی که اینترنت پرسرعت ندارند و یا هنگامی که قصد استفاده از دیتای موبایل را ندارید،‌ کاربردی باشد.

البته این نگرانی وجود دارد که از این ابزار برای سوء‌استفاده و یا ساخت خبر های جعلی استفاده شود. تصور کنید فقط با چند دقیقه از صوت کسی بتوان ویدیویی جعلی از او ساخت و آینده کمی ترسناک تر می شود. تحقیقاتی شبیه به این در رابطه با فناوری ساخت مدل های سه بعدی با استفاده از تصویر اشخاص نیز با موفقیت انجام شده است. تیم سازندگان این ابزار سعی بر دوری از این‌گونه استفاده ها دارند و بر این تأکید داشتند که شبکه ی عصبی آن‌ها فقط با استفاده از صوت و تصویر باراک اوباما به این نتایج رسیده است و اینکه ترکیب صوت و تصویر اشخاص مختلف هنوز ممکن نیست. پروفسور استیو سایتز در بیانیه ای اعلام کرد:”ما آگاهانه بر علیه حرف گذاشتن در دهان مردم هستیم.” اما این فناوری به صورت نظری می‌تواند صدای هرکسی را به صورت هر کسی بنگارد. آیا اگر این فناوری به طور گسترده همه جا استفاده شود، برخورد مردم با آن موشکافانه خواهد بود؟

برچسب‌ها: هوش مصنوعی

بدون امتیاز

کمی صبر کنید...

یک دیدگاه

دیدگاه1

Alirezaghavami گفت:
1 اردیبهشت 1404 در 7:38 ب.ظ
خوب
پاسخ

دیدگاهتان را بنویسید لغو پاسخ

در صورتی که نظر شما حاوی ناسزا، عبارات توهین‌آمیز و تهدید بوده و در تضاد با قوانین فعلی کشور باشد از انتشار آن بدون حذف موارد ذکر شده، معذوریم.
شکلک‌ها (اموجی‌ها) را می‌توانید با کیبرد گوشی یا کیبرد مجازی ویندوز قرار دهید.
تصاویر نویسندگان دیدگاه از Gravatar گرفته می‌شود.