محققان در دانشگاه آکسفورد، به کمک هوش مصنوعی، موفق به ساخت نرم افزار کامپیوتری شدند که قادر است لبخوانی کند؛ یعنی کلمات را از حالت لب ها تشخیص دهد و جالبتر اینجاست که این کار را بسیار دقیقتر و بهتر از انسان انجام میدهد همچنین میتواند برای افراد ناشنوا کمک بزرگی باشد. این نرم افزار هوش مصنوعی، به کمک بینایی سیستم(computer vision) و یادگیری ماشین (machine learning)، به سیستم یاد میدهد که چگونه لبخوانی کند؛ برای اینکار 5000 ساعت از فیلم برنامه های BBC را برای این سیستم پخش کردند و مجموعه ای از داده ها وارد سیستم شد؛ که در این فیلم ها، بیش از 118،000 جمله و 17،000 کلمه ی مختلف که توسط 1000 نفر صحبت شده وجود دارد.
محققان برای مقایسه ی این پروژه با انسان آزمایشی طراحی کردند که در این آزمایش از افراد حرفه ای و ماهر در لبخوانی دعوت شد تا در این آزمایش شرکت کنند و برایشان ویدیویی بی صدا نمایش داده شد که باید با استفاده از حرکت لب ها و دهان تشخیص میدادند که در ویدیو چه چیزی گفته میشود. سیستم هوش مصنوعی موفق شد تا 50 درصد از موارد را صحیح تشخیص دهد؛ در حالی که انسان های حرفه ای در لبخوانی توانستند فقط 12 درصد از کلمات و جملات را درست تشخیص دهند. ضمن اینکه اشتباهات سیستم بسیار کوچک بود و شاید فقط S آخر کلمات تشخیص داده نمیشد یا در تشخیص کلمات یک بخشی دچار اشتباه میشد. ولی این پروژه تا مرحله ی اجرایی و ارائه شدن خیلی فاصله دارد و باید روی آن بیشتر کار شود ضمن اینکه هرچه برنامه های بیشتری را برایش نمایش دهند عملکرد آن بهتر خواهد شد و هنوز نیاز به یادگیری بیشتری دارد.
این سیستم میتواند تحول زیادی در جامعه برای افرادی که مشکل شنوایی دارند ایجاد کند برای مثال افرادی که ناشنوا هستند یا شنواییشان را از دست داده اند میتوانند با این سیستم، دسترسی بهتری به تلویزیون یا اخبار داشته باشند و از طریق زیر نویس برنامه ها را مشاهده کنند یا حتی باعث ارتباط بهتر آنها با اطرافیان میشود. پژوهش محققان بر روی چنین تحقیقاتی که به بهبود عملکرد بشر کمک کند بسیار خوشحال کننده و فوق العاده است و مورد استقبال زیادی از افراد قرار خواهد گرفت. همچنین تکنولوژی لبخوانی در مکان های شلوغ که صدا به خوبی شنیده نمیشود؛ تاثیر بسیار زیادی دارد و دقت در فهمیدن کلمات را بالا میبرد. با اشتیاق زیاد منتظر پیشرفت های جدید این تکنولوژی و تکمیل آن خواهیم بود.
:-bd:-bd:-bd:-bd
:-bd:-bd:-bd
دقیقا بیشتر استفاده نامناسب میشه ازش :smiley0:smiley0
جالبه.
خیلی به درد سازمانهای اطلاعاتی و جاسوسی و کارهای هک میخوره !
لپتاب ها .گوشی ها . ابزارهای دوربین دار کنسول ها و ….
البته، جایی گفته نشده برای نوشتن این برنامه از OpenCV استفاده کردند.
خودم تا حدّی با این کتابخانه کار کردم، فکر نمیکنم اینقدر کارایی داشته باشه.
چندتا پروژه بهصورت متنباز هم برای Lip Reading هست، ولی همچین عملکردی ندارند.
بهنظرم برای این برنامه از صفر شروع کردند.
{نظر شما چی هست؟}
کتابخانه های OpenCV :smiley1:o