صداهای مصنوعی یا بهتر بگوئیم صداهای مصنوعی الکترونیکی مسیر زیادی را طی کردهاند تا به جایگاه فعلی رسیدهاند. از صداهای ربات مانند در دهه 60 میلادی گرفته تا امروز که حالا به لطف هوش مصنوعی فناوریهای تولید مکالمه عملکرد فوق العادهای ارائه میدهند تا حدی که شاید تشخیص واقعی نبودن آن مکالمه کار بسیار سختی باشد. نمونه این فناوریها را در دستیارهای هوشمند مختلف مانند الکسا، کورتانا و سیری شاهد هستیم که صدایی بسیار شبیه به صدای واقعی انسان تولید میکنند و به خوبی میتوان با آنها ارتباط برقرار کرد. حال فناوری RAD-TSS انویدیا قادر است یک سطح دیگر این تکنولوژی جذاب را ارتقا دهد.
معرفی فناوری RAD-TSS انویدیا
با وجود پیشرفت خیره کننده فناوریهای تولید صدا و تبدیل صدا به متن، هنوز نمیتوان گفت که عملکرد بی عیب و نقصی دارند و میتوان گفت همچنان جای پیشرفت دارند. بخش تحقیق تبدیل متن به گفت و گوی انویدیا موفق به توسعه ابزاری بر پایه فناوری یادگیری ماشین شده که باعث میشود صداهای سنتز صدا به شکلی بسیار واقع گرایانهتر صورت بگیرد. انویدیا یک مدل از هوش مصنوعی را با عنوان RAD-TSS توسعه داده است که توسعه دهندگان میتوانند این مدل را با صدای خود تمرین دهند و سپس این فناوری میتواند بر اساس تن و لحن صداهایی که یاد گرفته، متن را به یک سخنرانی طبیعی تبدیل کند. همچنین این فناوری قادر است صدای یک گوینده را به صدایی دیگر تبدیل کند.
به گفته انویدیا: قابلیت دیگر فناوری RAD-TSS تبدیل صدای مکالمه است، جایی که یک گوینده کلمات یا حتی آوازی را میخواهند و هوش مصنوعی صدا را تبدیل به صدای شخص دیگری میکند. ایده این فناوری با الهام از استفاده از صدای انسان به عنوان ابزار موسیقی شکل گرفته و به گفته کمپانی RAD-TSS این امکان را به کاربران میدهد که کنترل کاملی بر روی هر سطح از فریم، مدت زمان و انرژی صداهای تولید شده داشته باشند. انویدیا برای نمایش توانایی این فناوری ویدئوهای سریالی I AM AI را آماده کرده قابلیتهایی مانند تبدیل صدای سخنگوی مرد به زن را به نمایش می گذارد. همچنین توسعه دهندگان میتوانند تاکید بر روی کلمات مشخصی را تعیین کنند.
زمینه کاربری گسترده برای فناوری هوش مصنوعی RAD-TSS
کاربرد این فناوری میتواند بسیار گسترده باشد. از جمله خدمات مشتریان اتوماسیون شده، ترجمه زبان، کمک به افراد با شرایط جسمی خاص و همچنین بازی های کامپیوتری و هر کاربری دیگر که نیاز به یک صدای طبیعی مشابه صدای انسان دارد، میتوانند از فناوری RAD-TSS بهره مند شوند. انویدیا در پستی در وب سایت خود گفته است که هزاران ساعت از دیتای صدای تمرین شده با مدلهای مختلف بر روی سیستم های Nvidia DGX قرار گرفتهاند و توسعه دهندگان میتوانند هر مدلی را بسته به کاربری مورد نیاز خود پیدا کنند و با استفاده از هسته های Tensor کارت گرافیکهای انویدیا سرعت تمرین با مدلهای مختلف را افزایش دهند.
طبیعتا انویدیا این فناوری را به گونهای توسعه داده که بر روی سیستم های مجهز به گرافیکهای GeForce عملکرد بهتری دارد. هر چند این فناوری متن باز میباشد و هر توسعه دهندهای با مشخصات سخت افزاری متفاوت نیز میتوانند از آن بهرهمند شوند. انویدیا این ابزار را در کیت ابزار NeMo Python بر روی NGC در دسترس کاربران قرار داده است.
دیدگاهتان را بنویسید