کتابهای صوتی در سالهای اخیر به دلیل دردسترسبودن محبوبیت زیادی پیدا کردهاند. اما ضبط چنین محتوایی معمولاً دشوار و پرهزینه است. در همین راستا، محققان اخیراً روشی مبتنی بر هوش مصنوعی را به کار گرفتهاند که بسیاری از مشکلات پیشروی این فناوری را حل میکند و میتواند کاربران عادی را قادر به تولید کتاب های صوتی کند.
دستاورد مایکروسافت و محققان MIT
علاقهمندان به کتابخوانی اکنون میتوانند از طریق پروژه گوتنبرگ به هزاران کتاب صوتی ادبیات کلاسیک رایگان و موضوعات عمومی دیگر به صورت رایگان دسترسی داشته باشند. محققان مایکروسافت و MIT این مجموعه را با اسکن کتابها با نرمافزار تبدیل متن به گفتار، به طوری که طبیعی به نظر برسد، خلق کردند.
این مجموعه شامل آثاری از شکسپیر، آگاتا کریستی، جین آستن، لئوناردو داوینچی و بسیاری دیگر است. کاربران می.توانند در بایگانی اینترنتی ، اسپاتیفای ،اپل پادکست و گوگل پادکست به این کتابها گوش دهند. کدی که برای ساخت مجموعه مورداستفاده قرار گرفته در GitHub موجود است.
اپل فروش کتاب های صوتی را در ژانویه سال جاری با استفاده از هوش مصنوعی و فناوری خودکار تبدیل متن به گفتار آغاز کرد. با این حال، سرمایهگذاری شرکت توسط شخصیتهای ادبی منتقد اهداف تجاری اپل و افراد مشهوری که از صدای آنها برای آموزش مدلهای هوش مصنوعی استفاده شده بود، مورد بررسی قرار گرفت. به نظر میرسد رویکرد گوتنبرگ به دلیل متنباز بودن و نداشتن انگیزه مالی با واکنشهای متفاوتی روبرو شوند.
پروژه گوتنبرگ دههها را صرف جمعآوری کتابخانهای از ادبیات رایگان در قالب متن کرده است تا آن را بهطور گسترده دردسترس قرار دهد. حالا کتابهای صوتی مطالب را حتی بیشتر از پیش در دسترس قرار میدهند. این کتابها برای خوانندگانی که در حال رانندگی هستند، کار دیگری را بهصورت همزمان انجام میدهند، کمبینا هستند و یا برای یادگیری زبان جدیدس تلاش میکنند، گزینه مناسبی خواهند بود.
موانع پروژه گوتنبرگ
خلق یک کتاب صوتی با استفاده از روشهای سنتی مستلزم صرف زمان و هزینه بسیار بالا است. ضبط دستی یک نسخه صوتی از هر کتابی که ارزش خواندن دارد، از نظر اقتصادی بهصرفه نیست. فناوری خودکار تبدیل متن به گفتار برای پروژه گوتنبرگ مناسبتر است. با این حال، هنوز هم موانع زیادی در این مسیر محققان وجود داشت.
اولین و مهمترین مسئله این بود که نرمافزار میتواند کدام کتابهای دیجیتال را تجزیه کند. پروژه گوتنبرگ مطالب خود را در قالبهای مختلف جمع آوری میکند و بسیاری از فایلهای آن حاوی خطا یا اسکن ناقص هستند. بنابراین، محققان بر روی کتابهایی که بهعنوان فایلهای HTML ذخیره میشوند، تمرکز کردند و ابزاری ساختند تا کشف کنند که کدام موارد فرمت مشابهی را نشان میدهند.
مشکل دیگری که محققان حل کردند این بود که به سیستم آموزش دهند کدام متن را بخواند و کدام را نادیده بگیرد بود. در این بخش آنها به قسمتهایی مانند فهرست مطالب، شماره صفحات، پاورقیها، جداول و سایر مطالب اضافی پرداختند.
علاوه بر این، نتایج باید به اندازه کافی به گفتار طبیعی انسان نزدیک باشد. محققان بر روی پخش صدایی که برای آثار غیرداستانی مناسبتر است، تمرکز کردند. اما کاربران میتوانند نرمافزار را روی حالت خواندن نمایشی تنظیم کنند.
محققان قصد دارند نمایشی برگزار کنند که به کاربران امکان میدهد با صدای خود کتاب صوتی تولید کنند. پس از ضبط چند خط برای آموزش الگوریتم، هر شرکتکننده میتواند یک نمونه را قبل از فعالکردن نرمافزار برای خواندن کل کتاب بشنود. همچنین یک نسخه از کتاب صوتی را از طریق ایمیل دریافت خواهند کرد. کاربران میتوانند به صورت اختیاری از میان صداهای مصنوعی برای سفارشیکردن هر کتاب صوتی انتخاب کنند.
دیدگاهتان را بنویسید