شبیه سازی صدا در 3 ثانیه با کمک هوش مصنوعی جدید مایکروسافت VALL-E

توسط علیرضا پارساپور ·21 دی 140121 دی 1401· 1

پنجشنبه گذشته محققان مایکروسافت یک مدل جدید هوش مصنوعی تبدیل متن به گفتار که به راحتی در سه ثانیه می‌تواند این وظیفه را انجام دهد با نام VALL-E معرفی کردند. این الگوریتم هوش مصنوعی زمانی که یک صدای خاص را یاد گرفت می‌تواند به راحتی با حفظ لحن، صحبت‌های گوینده را تکرار کند.

سازندگان این AI تخمین زده‌اند که VALL-E می‌تواند برای اپلیکیشن‌های تبدیل متن به گفتار با کیفیت و ویرایش صوتی گفتار مورد استفاده قرار گیرد. مایکروسافت VALL-E را مدل کدک عصبی زبانی توصیف کرده و اعلام کرده که این فناوری با کمک تکنولوژی به نام EnCodec که متا در اکتبر 2022 معرفی کرده ساخته شده است.

برخلاف سایر روش‌های تبدیل متن به گفتار که معمولا با دستکاری شکل موج به وقوع می‌پیوندد، مایکروسافت اظهار کرده که VALL-E کدک‌های صوتی مجزا و اختصاصی را بر اساس متن و پیام صوتی به صورت مستقل تولید می‌کند و اساساً صدای یک شخص را تحلیل می‌کند و آن را به کمک EnCodec به اجزای اختصاصی تبدیل می‌کنند و با استفاده از الگوریتم‌های یادگیری ماشین و دیتای آموزشی، چگونگی بیان دیگر جملات و کلمات را با همان صدای صوتی تحلیل و پیش بینی می‌کند.

ردموندی‌ها قابلیت تمرین گفتار هوش مصنوعی VALL-E را مبتنی بر لایبرری نرم‌افزاری LibriLight که توسط متا توسعه یافته خوانده که شامل 60,000 ساعت سخنرانی به زبان انگلیسی بیش از 7000 سخنران است و عمدتاً از کتابخانه صوتی LibriVox استخراج شده است.

Microsoft همچنین در وب‌سایت VALL-E نمونه‌های عملی از مدل گیری این هوش مصنوعی را به اشتراک گذاشته است. این تکنولوژی با وجود مفید بودن و ارائه قابلیت‌های کاربردی، توانایی جعل صدا برای استفاده‌های غیرقانونی خصوصاً در شبکه‌های اجتماعی را نیز دارد و مایکروسافت با آگاهی از این مورد VALL-E را به صورت مستقیم و مستقل برای آزمایش در دسترس قرار نداده است.

برچسب‌ها: مایکروسافت

امتیاز: 5.0 از 5 (4 رای)

کمی صبر کنید...

یک دیدگاه

دیدگاه1

حسین گفت:
14 اردیبهشت 1402 در 10:30 ب.ظ
حسین چیش درشتت
پاسخ

دیدگاهتان را بنویسید لغو پاسخ

در صورتی که نظر شما حاوی ناسزا، عبارات توهین‌آمیز و تهدید بوده و در تضاد با قوانین فعلی کشور باشد از انتشار آن بدون حذف موارد ذکر شده، معذوریم.
شکلک‌ها (اموجی‌ها) را می‌توانید با کیبرد گوشی یا کیبرد مجازی ویندوز قرار دهید.
تصاویر نویسندگان دیدگاه از Gravatar گرفته می‌شود.