پژوهشگران دانشگاه واشنگتن (UW) دستاوردی خارقالعاده ارائه دادهاند: هدفونهای هوشمندی که به کمک هوش مصنوعی میتوانند صدای چند گوینده را بهطور همزمان ترجمه کنند. این دستگاه مانند یک فرد چندزبانه در یک امکان شلوغ عمل میکند که قادر است هرآنچه اطرافیان به زبانهای مختلف بیان میکنند، بهطور همزمان درک کند.
هدفونهای بیسیم Google Pixel Buds مدتهاست که امکان ترجمه همزمان و لحظهای را ارائه میدهند. در سالهای اخیر، برندهایی مانند Timkettle نیز هدفونهای مشابهی برای مشتریان تجاری عرضه کردهاند. با این حال، تمام این دستگاهها تنها قادر به ترجمه یک جریان صوتی در هر لحظه هستند.
ترجمه گفتار فضایی: نوآوری جدید
تیم دانشگاه واشنگتن از نوآوری خود با عنوان «ترجمه گفتار فضایی» (Spatial Speech Translation) یاد میکند که به لطف هدفونهای دوگوشی (باینورال) امکانپذیر شده است. برای کسانی که با این مفهوم آشنا نیستند، صدای دوگوشی تلاشی است برای شبیهسازی جلوههای صوتی به همان شکلی که گوشهای انسان آنها را طبیعی میشنوند. برای ضبط این صداها، میکروفونها روی یک سر مصنوعی قرار میگیرند و با فاصلهای مشابه گوشهای انسان تنظیم میشوند.
این رویکرد اهمیت زیادی دارد، زیرا گوشهای انسان تنها صدا را نمیشنوند، بلکه جهت منبع صدا را نیز تشخیص میدهند. هدف اصلی این فناوری، تولید یک صحنه صوتی طبیعی با افکت استریو است که حس شنیدن زنده یک کنسرت را به کاربر القا میکند؛ یا به عبارتی، تجربه شنیداری فضایی در عصر مدرن.
این پروژه به سرپرستی پروفسور شیام گالاکوتا انجام شده است. گالاکوتا پروژههای متعددی را در کارنامه خود دارد؛ از اپلیکیشنهایی که GPS زیرآبی را به ساعتهای هوشمند اضافه میکنند گرفته تا ایمپلنتهای مغزی که میتوانند با دستگاههای الکترونیکی ارتباط برقرار کنند
ترجمه همزمان چند گوینده
پروفسور گالاکوتا توضیح میدهد: برای اولین بار، ما صدای هر فرد و جهت منبع آن را حفظ کردهایم. این فناوری مانند یک رادار عمل میکند و تعداد گویندگان حاضر در محیط را شناسایی کرده و این تعداد را بهصورت لحظهای بهروزرسانی میکند، حتی زمانی که افراد وارد یا خارج از محدوده شنیداری میشوند. این فرآیند کاملاً در خود دستگاه انجام میشود و نیاز به ارسال صداها به سرور ابری برای ترجمه ندارد؛ به همین دلیل، حریم خصوصی کاربران حفظ میشود.

علاوه بر ترجمه گفتار، این سیستم کیفیت بیان و حجم صدای هر گوینده را نیز حفظ میکند. همچنین، با حرکت گوینده در اتاق، تنظیمات جهت و شدت صدا بهصورت خودکار تغییر میکنند. جالب اینجاست که گفته میشود شرکت اپل نیز در حال توسعه سیستمی مشابه برای ترجمه لحظهای با هدفونهای AirPods است.
مراحل آزمایش و عملکرد
تیم دانشگاه واشنگتن قابلیتهای ترجمه این هدفونهای هوشمند را در تقریباً دوازده محیط داخلی و خارجی آزمایش کرده است. از نظر عملکرد، سیستم میتواند صدا را دریافت، پردازش و ترجمه کند و خروجی را ظرف 2 تا 4 ثانیه ارائه دهد. شرکتکنندگان در آزمایشها ترجیح دادند که تأخیری 3 تا 4 ثانیهای وجود داشته باشد، اما تیم تحقیقاتی درحال کار بر روی کاهش زمان تأخیر است.
تا به حال، این سیستم تنها برای ترجمه زبانهای اسپانیایی، آلمانی و فرانسوی آزمایش شده است، اما تیم امیدوار است زبانهای بیشتری را به این مجموعه اضافه کند. از لحاظ فنی، آنها فرآیندهای جداسازی منبع صوتی، مکانیابی، ترجمه بیانی لحظهای و پردازش دوگوشی را در یک جریان واحد ادغام کردهاند که خود یک دستاورد بزرگ محسوب میشود.
این سیستم از مدلی برای ترجمه گفتار بهره میبرد که قادر است بهصورت لحظهای روی تراشه اپل M2 کار کند و استنتاجهای بلادرنگ انجام دهد. وظایف صوتی نیز با استفاده از هدفونهای نویزگیر Sony WH-1000XM4 و میکروفون باینورال Sonic Presence SP15C انجام شده است.
بهترین بخش ماجرا؟
کد این دستگاه نمونه اولیه برای استفاده دیگران دردسترس است. این یعنی جامعه علمی و علاقهمندان بمیتوانند از این پروژه بهعنوان پایهای برای توسعه پروژههای پیشرفتهتر بهره ببرند.
دیدگاهتان را بنویسید