گوگل به تازگی از مدل هوش مصنوعی جدید خود بهنام AudioPaLM با قابلیت شنیدن، صحبتکردن و ترجمه رونمایی کرد.
فناوری هوش مصنوعی بهطور مداوم در حال پیشرفت است. در حالی که بسیاری از افراد از هوش مصنوعی برای کمک به انجام کارهای خود استفاده میکنند، این فناوری میتواند بسیار کاربردیتر باشد. گوگل سالهاست که برروی فعالسازی پتانسیل کامل هوش مصنوعی کار میکند و آخرین فناوری این شرکت AudioPaLM نام دارد. این مدل جدید میتواند با دقت بیسابقهای گوش بدهد، حرف بزند و ترجمه کند.
کاربردهای بالقوه مدل هوش مصنوعی AudioPaLM گوگل
محققان گوگل AudioPaLM را به عنوان یک مدل زبان جدید که میتواند با دقت شگفتانگیزی گوش کند، حرف بزند و ترجمه کند، معرفی کردند. این مدل براساس معماری چندوجهی توسعه یافته و نقاط قوت دو مدل AudioLM و PaLM-2 را ترکیب میکند. PaLM-2 یک مدل زبان مبتنیبر متن است که درک کاملی از متن ارائه میدهد.
AudioLM در حفظ اطلاعات شبهزبانی مانند هویت و لحن گوینده بسیار عالی عمل میکند. با ترکیب این دو مدل، AudioPaLM از تخصص زبانی PaLM-2 و حفظ اطلاعات فرازبانی AudioLM بهره میبرد که منجر به درک کاملتر و ایجاد متن و گفتار میشود.
AudioPaLM از واژگان مشترکی استفاده میکند که میتواند هم گفتار و هم متن را با استفاده از تعداد محدودی نشانههای مجزا نشان دهد. این قابلیت اجازه میدهد تا وظایفی مانند تشخیص گفتار، تبدیل متن به گفتار و ترجمه گفتار به گفتار با معماری و فرایند آموزشی واحد ارائه شوند.
ظاهراً AudioPaLM از سیستمهای موجود در ترجمه گفتار بهتر عمل میکند. اسم مدل حتی میتواند ترجمه گفتار به نوشتار را با ترکیبهای زبانی جدیدی که قبلاً هرگز با آنها مواجه نشده، انجام دهد. AudioPaLM همچنین میتواند صداها را بر اساس اعلانهای گفتاری کوتاه بین زبانها انتقال داده و صداهای متمایز را در زبانهای مختلف ضبط و بازتولید کند.
حنفبغ