مدل هوش مصنوعی AudioPaLM گوگل با قابلیت‌های چشمگیر معرفی شد

توسط مهرانه راجعی ·5 تیر 14025 تیر 1402· 1

گوگل به تازگی از مدل هوش مصنوعی جدید خود به‌نام AudioPaLM با قابلیت شنیدن، صحبت‌کردن و ترجمه رونمایی کرد.

فناوری هوش مصنوعی به‌طور مداوم در حال پیشرفت است. در حالی که بسیاری از افراد از هوش مصنوعی برای کمک به انجام کارهای خود استفاده می‌کنند، این فناوری می‌تواند بسیار کاربردی‌تر باشد. گوگل سال‌هاست که برروی فعالسازی پتانسیل کامل هوش مصنوعی کار می‌کند و آخرین فناوری این شرکت AudioPaLM نام دارد. این مدل جدید می‌تواند با دقت بی‌سابقه‌ای گوش بدهد، حرف بزند و ترجمه کند.

کاربردهای بالقوه مدل هوش مصنوعی AudioPaLM گوگل

مدل هوش مصنوعی AudioPaLM گوگل با قابلیت‌های چشمگیر معرفی شد

محققان گوگل AudioPaLM را به عنوان یک مدل زبان جدید که می‌تواند با دقت شگفت‌انگیزی گوش کند، حرف بزند و ترجمه کند، معرفی کردند. این مدل براساس معماری چندوجهی توسعه یافته و نقاط قوت دو مدل AudioLM و PaLM-2 را ترکیب می‌کند. PaLM-2 یک مدل زبان مبتنی‌بر متن است که درک کاملی از متن ارائه می‌دهد.

AudioLM در حفظ اطلاعات شبه‌زبانی مانند هویت و لحن گوینده بسیار عالی عمل می‌کند. با ترکیب این دو مدل، AudioPaLM از تخصص زبانی PaLM-2 و حفظ اطلاعات فرازبانی AudioLM بهره می‌برد که منجر به درک کامل‌تر و ایجاد متن و گفتار می‌شود.

AudioPaLM از واژگان مشترکی استفاده می‌کند که می‌تواند هم گفتار و هم متن را با استفاده از تعداد محدودی نشانه‌های مجزا نشان دهد. این قابلیت اجازه می‌دهد تا وظایفی مانند تشخیص گفتار، تبدیل متن به گفتار و ترجمه گفتار به گفتار با معماری و فرایند آموزشی واحد ارائه شوند.

ظاهراً AudioPaLM از سیستم‌های موجود در ترجمه گفتار بهتر عمل می‌کند. اسم مدل حتی می‌تواند ترجمه‌ گفتار به نوشتار را با ترکیب‌های زبانی‌ جدیدی که قبلاً هرگز با آن‌ها مواجه نشده، انجام دهد. AudioPaLM همچنین می‌تواند صداها را بر اساس اعلان‌های گفتاری کوتاه بین زبان‌ها انتقال داده و صداهای متمایز را در زبان‌های مختلف ضبط و بازتولید کند.

برچسب‌ها: گوگل

امتیاز: 3.6 از 5 (11 رای)

کمی صبر کنید...

یک دیدگاه

دیدگاه1

ابوالفضل جهانی مقدم گفت:
6 تیر 1402 در 7:55 ب.ظ
حنفبغ
پاسخ

دیدگاهتان را بنویسید لغو پاسخ

در صورتی که نظر شما حاوی ناسزا، عبارات توهین‌آمیز و تهدید بوده و در تضاد با قوانین فعلی کشور باشد از انتشار آن بدون حذف موارد ذکر شده، معذوریم.
شکلک‌ها (اموجی‌ها) را می‌توانید با کیبرد گوشی یا کیبرد مجازی ویندوز قرار دهید.
تصاویر نویسندگان دیدگاه از Gravatar گرفته می‌شود.