فناوری تشخیص گفتار نرمافزاری است که قادر است صوت را به متن تبدیل کند. فناوری تشخیص گفتار به کامپیوتری که توانایی دریافت صدا را دارد برای مثال به یک میکروفن مجهز است این قابلیت را میدهد که صحبت کاربر را متوجه شود،این فناوری در تبدیل گفتار به متن و یا به عنوان جایگزین برای ارتباط با رایانه کاربرد دارد. برقراری ارتباط گفتاری با کامپیوترها به جای استفاده از صفحه کلید و ماوس یکی از زمینههای تحقیقاتی مهم چند دههٔ اخیر است و شرکتهای بزرگی چون مایکروسافت،IBM و فیلیپس سالانه هزینههای هنگفتی را برای این منظور پرداخت کرده و میکنند.
هدف بلند مدت سیستمهای بازشناسی خودکار گفتار‚ طراحی ماشینی است که سیگنال صوتی مربوط به یک جملهٔ بیان شده را به دنبالهای از کلمات نوشته شده تبدیل نماید. سیستمهای بازشناسی خودکار گفتار اطلاعات متنوعی ازمنابع دانش گوناگون را در جهت دستیابی به جملهٔ بیان شده از روی سیگنال صوتی دریافت شده‚به کار میگیرند. پردازش گفتار به عنوان یکی از زیر شاخههای پردازش سیگنال به سرعت در حال گسترش است. تکنیکهای پیچیده و نواوریهای روز افزون این دانش٫همگی در راستای دستیابی به این ارزو هستند که امکان بیابیم مفاهیم در قالب ابزارهای ریاضی فراهم گردد. در این مقاله٫به بیان خلاصهای از انواع روشهای پردازش گفتار میپردازیم:
تحت تاثیر قرار گرفتن کیفیت سیگنال صوتی به وسیلهٔ نویز محیط و تابع انتقال سیستم انتقال مانند میکروفن‚تلفن
عدم وضوح مرز ما بین کلمات و واجها در سیگنال صوتی
تنوع وسیع سرعت بیان
دقت ناکافی در بیان کلمات و به خصوص انتهای انها در گفتار محاورهای نسبت به گفتار مجزا
تاپیر تنوعات متعدد گوینده از جمله جنسیت‚شرایط فیزیولوژیک و روانی بر گفتار
به کارگیری محدودیتهای معنایی-نهوی زبان برای گفتار زبان طبیعی به روشی مشابه ارتباط انسان با انسان در سیستم بازشناسی
در جهت غلبه بر مشکلات مذکور تاکنون روشهای متنوعی پیشنهاد شدهاست که از جمله انها روشهای اماری مبتنی بر قانون تصمیم گیری بیز‚روشهای مبتنی بر شبکهٔ عصبی و در برخی موارد ترکیب روشهای اماری و شبکهٔ عصبی است. با بررسی روشهای فوق میتوان دریافت که شناسایی کلمه یا واج بدون خطا بدون استفاده از دانش سطوح بالاتر به خصوص در بازشناسی گفتار پیوسته با حجم لغت نامهٔ بزرگ‚امکان پذیر نیست.
تولید سیستم نرم افزاری
از جمله قابلیتهای این نرمافزار این است که این نرمافزار قادر است فایلهای WAV،mp3 را مستقل از صدای گوینده به متن تبدیل کند ولی کیفیت ان کمتر از ان است که صدای فرد را به نرمافزار معرفی کنیم. از دیگر قابلیتهای سیستمهای گفتاری میتوان به ترجمهٔ گفتار به سایر زبانها اشاره کرد. از این قابلیت در جنگ امریکا و عراق استفاده شد. امریکاییها سیستمهایی را طراحی و تولید کردند که قادر بود کلام عربی را به انگلیسی ترجمه کند. همچنین در انجام اقدامات امنیتی بهره برداری میکنند که میتواند کلمات کلیدی را برای این نرمافزار شناسایی کرد تا نسبت به ان کلمه خاص حساس شود تا در صورت استفاده از آن، سیستم این کلمات را رکورد کند. این قابلیت در سال ۱۹۹۴ در آمریکا طراحی و تولید شد و در سیستمهای تلفنی به کار گرفته شد.
کاربردها
ه عنوان یک کاربر رایانه‚احتمالا با قابلیت گفتاری مجموعهٔ افیس به عنوان یکی از ویژگیهای جذاب و تا حدی فانتزی برخورد کرده و یا با ان کار کردهاید. به کمک این قابلیت شما به جای استفاده از صفحه کلید برای تایپ مطالبتان ‚به راحتی با خواندن متن مورد نظرتان و انتقال گفتارتان به کمک یک میکروفن معمولی به رایانه ‚مطلب مورد نظرتان را تایپ شده میبینید. حتی برای ذخیره کردن ‚کپی کردن‚گذاشتن عکس در متن‚….. به جای کلیکهای پشت سر هم و گاهی با تعداد بالا‚میتوانید فرمان مربوطه را به کمک گفتار به نرمافزار داده تا کار شما را انجام دهد. جدای از اینکه توانایی درست کار کردن این قابلیت افیس چقدر باشد‚یک محدودیت بزرگ در سر راه استفاده از ان برای ما ایرانیان وجود دارد ‚این قابلیت فقط برای زبان انگلیسی است.(البته زبانهای چینی و ژاپنی را نبز شامل میشود!). ایجاد چنین سیستمی که ان را تشخیص یا بازشناسی گفتار مینامند¸در زبان فارسی¸چندین سال از تحقیقات محققان اساتیدو دانشجویان دانشگاههای مختلف کشور را به خود اختصاص دادهاست. اما جدیترین جهشی که در حدود ده سال پیش در این زمینه ایجاد شد ایجاد دادگان گفتاری فارسی دات و یک سیستم اولیه نشخیص گفتار فارسی در مرکز هوشمند علائم بودهاست.
بازشناسی
تکنولوژی بازشناسی گفتار ،شیوهای جدید برای تشخیص پیام هاو دستورهای صوتی و حاصل پژوهش جمعی از متخصصین دانشگاه صنعتی شریف در زمینهٔ پردازش گفتار است. این نرمافزار، به خوبی در محیط پرنویز، عمل میکند مثلاً در خودرویی با سرعت ۱۰۰ کیلومتر در ساعت با شیشههای باز و در بزرگراه تست شده و پاسخ مناسب گرفتهاست. دیگر مزیت این نرمافزار، حجم بسیار پایین آن است که به راحتی قابل برنامه ریزی برروی یک ای سی است (نسخه دمو روی pc) به راحتی تا ۱۰۰ فرمان را پردازش میکند) نرمافزار مورد بحث، با این مشخصات در ایران مشابه ندارد و موارد موجود در دنیا نیز مانند فرمانی توسط صدا حداقل نیاز به پردازنده پنتیوم با حجم زیاد حافظه دارند. نکته دیگر اینکه این نرمافزار، هوشمند بوده و قابل آموزش دادن است و پس از آموزش (مثلاً با صدای اعضای یک خانواده) صدار هرکدام از آنها را که بشنود (و در کل هر زمانی که کلمه یا فرمانی را بشنود) مستقل از این که چه کسی آن را ادا کردهاست (صدای زن یا مرد، کلفت یا نازک) فرمان را اجرا میکند.
نکته:شاید این مورد برای ما ایرانیان یک جهش علمی محسوب گردد،اما امروزه حتی تلویزیون های هوشمند ساده نیز قادر به انجام همین اعمال بوده و دستورات صوتی را به سرعت اجرا می کنند.
ترکیب و تشخیص
کاربردهای نیازمند پردازش صحبت اغلب در دو دستهٔ ترکیب صحبت و تشخیص صحبت مورد بررسی قرار میگیرند. ترکیب صحبت عبارت است از فن آوری تولید مصنوعی صحبت به وسیلهٔ ماشین و به طور عمده از پروندههای متنی به عنوان ورودی آن استفاده میگردد. در اینجا باید به یک نکتهٔ مهم اشاره شود که بسیاری از تولیدات تجاری که صدای شبیه به صحبت انسان ایجاد میکنند در واقع ترکیب صحبت انجام نمیدهند بلکه تنها یک تکهٔ ضبط شده به صورت دیجیتال از صدای انسان را پخش میکنند. این روش کیفیت صدای بالایی ایجاد میکند اما به واژهها و عبارات از پیش ضبط شده محدود است. از کاربردهای عمدهٔ ترکیب صحبت میتوان به ایجاد ابزارهایی برای افراد دارای ناتوانی بینایی برای مطلع شدن از آنچه بر روی صفحهٔ کامپیوتر میگذرد اشاره کرد.
نکته:در برخی از نرم افزارهای جدید،ارتباط آنها با سرور اصلی از طریق اینترنت،قابلیت ها را بسیار افزایش داده و محدودیت کارایی برداشته شده است.
بیشتر صداهای مربوط به صحبت انسان به دو دستهٔ صدادار و سایشی تقسیم میشوند. اصوات صدادار وقتی که هوا از ریهها و از مسیر تارهای صوتی به بیرون دهان یا بینی رانده میشوند ایجاد میگردند. تارهای صوتی دو رشتهٔ آویخته از بافت هستند که در مسیر جریان هوا کشیده شدهاند. در پاسخ به کشش ماهیچهای متفاوت تارهای صوتی با فرکانسی بین ۵۰ تا ۱۰۰۰ هرتز ارتعاش میکنند که باعث انتقال حرکتهای متناوب هوا. در مقایسه، اصوات سایشی به صورت نویز تصادفی و نه حاصل از ارتعاش تارهای صوتی به وجود میآیند.
ارزش ایجاد ف نآوریهای ترکیب و تشخیص صحبت بسیار زیاد است. صحبت سریعترین و کاراترین روش ارتباط انسانهاست. تشخیص صحبت پتانسیل جایگزینی نوشتن، تایپ، ورود صفح هکلید و کنترل الکترونیکی را که توسط کلیدها و دکمهها اعمال میشود را داراست و فقط نیاز به آن دارد که کمی برای پذیرش توسط بازار تجاری بهتر کار کند. ترکیب صحبت علاوه بر آن که همانند تشخیص صحبت میتواند استفاده از کامپیوتر را برای کلیهٔ افراد ناتوان بدنی که دارای تواناییهای شنوایی و گفتاری مناسب هستند آسا نتر سازد به عنوان یک وسیل هی خروجی کاربرپسند در محیطهای مختلف میتواند با جایگزین کردن بسیاری از علائم دیداری(انواع چراغها و…) و شنوایی (انواع زنگهای اخطار و …) با گفتارهای بیان کنندهٔ کامل پیامها استفاده از و رسیدگی به سیستمهای نیازمند این گونه پیامها را بهینه کند. در اینجا لازم است به این نکته اشاره شود که پیشرفت در فن آوری تشخیص صحبت (و همچنین تشخیص گوینده) همان قدر که محدودهٔ دی. اس. پی را در بر میگیرد نیازمند دانش به دست آمده از محدودههای هوش مصنوعی و شبکههای عصبی است. شاید این تنوع دانشهای مورد نیاز به عنوان عامل دشواری مطالع هی مبحث پردازش صحبت در نظر گرفته شود حال آن که این گونه نیست و این تنوع راهکارها بخت رسیدن به سیستم با کارایی مطلوب را افزایش میدهد. تواناییهای ابزارهایی که در بخش اول این فصل به آنها اشاره شد امیدواریهای فراوانی را در زمینهٔ موفقیت ابزارهای موجود فراهم میآورد و دامنهٔ وسیع شرکتها و مراکز دانشگاهی که در این زمینه فعالیت میکنند بر تنوع در قابلیتها و کاربردهای پیاده سازی شدهٔ این ابزارها میافزاید.
در حال حاضر به دلیل کمبود استقبال از زبان فارسی در این زمینه،ابداعات و نوآوری های بسیار کمی را شاهد هستیم.بسیاری از نرم افزارهای تولید شده در سطح علوم دانشگاهی،فاقد کیفیت کافی برای استفاده های کامل هستند.برای مطالعه بیشتر در این زمینه،پیشنهاد ما به شما کتاب های پایه مانند کتاب دکتر سعید آیت است.
سلام
خیر
به همون صورت که گفته شده.
سلام وقت بخیر
این نرمافزار قابلیت این را دارد که وویس ضبط شده را هم به نوشتار تبدیل کند؟!
اگر تبدیل میکند به صورت محاوره تبدیل میکند یا نوشتار کتابی؟!
این که چیز تازه ای نیست