فناوری تشخیص گفتار

فناوری تشخیص گفتار به رایانه‌ای که توانایی دریافت صدا را دارد (برای مثال به یک میکروفن مجهز است) این قابلیت را می‌دهد که صحبت کاربر را متوجه شود. این فناوری در تبدیل گفتار به متن و یا به عنوان جایگزینی برای ارتباط با رایانه کاربرد دارد.

برقراری ارتباط گفتاری با کامپیوترها به جای استفاده از صفحه کلید و ماوس یکی از زمینه‌های تحقیقاتی مهم چند دهه‌ی اخیر بوده است و شرکت‌های بزرگی چون IBM، ALIT، Philips و Microsoft سالانه هزینه‌های هنگفتی را برای این منظور پرداخت کرده و می‌کنند.
به عنوان یک کاربر کامپیوتر، احتمالاً با قابلیت گفتاری مجموعه آفیس به عنوان یکی از ویژگی‌های جذاب و تا حدی فانتزی برخورد کرده و یا با آن کار کرده‌اید. به کمک این قابلیت شما به جای استفاده از صفحه کلید برای تایپ مطالبتان، به راحتی با خواندن متن مورد نظر و انتقال گفتارتان به کمک یک میکروفون معمولی به کامپیوتر، آنرا در محیط Word تایپ شده می‌بینید. حتی برای ذخیره کردن، کپی کردن، گذاشتن عکس در متن و . . . به جای کلیک‌های پشت سر هم و گاهی با تعداد بالا، می‌توانید فرمان مربوطه را به کمک گفتار به نرم‌افزار داده تا کار شما را انجام دهد.

جدای از اینکه توانایی درست کارکردن این قابلیت آفیس چقدر باشد، یک محدودیت بزرگ در سر راه استفاده از آن برای ما ایرانیان وجود دارد: این قابلیت فقط برای زبان انگلیسی است. (البته زبان‌های چینی یا ژاپنی را نیز می‌توان استفاده کرد!). ایجاد چنینی سیستمی که آنرا تشخیص یا بازشناسی گفتار (Speech recognition) می‌نامند، در زبان فارسی، چندین سال از تحقیقات محققان، اساتید و دانشجویان دانشگاه‌های مختلف کشور را به خود اختصاص داده است. اما جدی‌ترین جهشی که در حدود ده سال پیش در این زمینه ایجاد شد، ایجاد دادگان گفتاری فارس‌دات و یک سیستم اولیه تشخیص گفتار فارسی در مرکز هوشمند علائم بوده است.

در ادامه و در طی یکی-دو سال اخیر، مهم‌ترین دستاورد در این تکنولوژی برای زبان فارسی، سیستم‌های تشخیص گفتار شرکت عصرگویش پرداز (ASR Gooyesh Pardaz ) http://www.asr-gooyesh.com است. این شرکت که توسط گروهی از اساتید و دانشجویان دانشگاه صنعتی شریف ایجاد شده است، تنها فعالیت تخصصی خود را در زمینه پردازش سیگنال گفتار و بویژه تشخیص‌خودکار آن قرار داده است و نرم‌افزارهایی را برای انجام کار تشخیص خودکار گفتار توسعه داده است.

نرم‌افزار نویسا که برای دیکته خودکار می‌باشد و نرم‌افزار نیوشا که جهت تشخیص گفتار از پشت خط تلفن توسعه داده شده است، از دستاوردهای آنهاست. از نظر فنی، معیارهایی چون وابسته یا متعلق بوده به گوینده بودن سیستم، اندازه و تعداد واژگان، پیوسته یا گسسته بودن گفتار ورودی، استفاده از محدودیت‌های زبانی و کارایی در محیط‌های واقعی توانمندی سیستم‌های تشخیص گفتار را مشخص می‌کند.
در کاربردهایی مانند تشخیص گفتار تلفنی، اطن سیستم لزوماً باید مستقل از گوینده باشند اما سیستم دیکته می‌تواند وابسته به گوینده خاص باشد و برای آن گوینده سیستم بهترین کارایی را داشته باشد. در کاربردهای واقعی معمولاً سیستم را مستقل از گوینده می‌سازند و موقع استفاده به صدای گوینده خاصی آنرا اصطلاحاً تطبیق می‌کنند.
این کار در قابلیت گفتاری مجموعه آفیس به کمک خواندن متون اولیه در ویزارد سیستم انجام می‌شود، چنین قابلیتی در سیستم نویسا نیز وجود دارد. هر چه تعداد واژگانی که سیستم می‌تواند تشخیص دهد بیشتر باشد، شباهت میان کلمات بیشتر شده و در نتیجه کارایی سیستم به ‌علت افزایش اشتباهات کاهش پیدا می‌کند.
از اینر‌رو در کاربرداهای واقعی معمولآً فقط واژگان متناسب با کاربرد مورد نظر را انتخاب می‌کنند تا محدود شود. در قابلیت گفتاری آفیس هم که ادعا می‌شود اکثر کلمات انگلیسی را دارد، کارایی به شدت پایین است (کارایی پایین آن به علت این است که ما غیرانگلیسی زبان هستیم!) ولی در محصولات محدودتر این شرکت مانند قابلیت گفتار I-mate کارایی به مراتب بهتر است. گفتار کاربر می‌تواند پیوسته و طبیعی و یا با مکث میان کلمات همراه باشد، بدیهی است که حالت اول مطلوب هرکاربری است. یکی از مشکلاتی که محصولات نویسا و نیوشا تا حدی زیادی آن را حل کرده‌اند، استخراج و به‌کارگیری قابلیت‌های زبانی، زبان فارسی در حد نسبتاً کاملی است.

این اطلاعات زبانی می‌تواند در سایر نرم‌افزارهایی که نیاز به اطلاعات زبانی دارند، مانند مترجم‌ها و نرم‌افزارهای OCR نیز بکار گرفته شود. اثر صداهای اضافی و ناخواسته در کاربردهای واقعی نرم‌افزارهای تشخیص گفتار را در عمل دچار افت شدید کارایی می‌نماید، در محصولات فارسی ارائه شده با رویکردهای مختلفی این نقصان تا حد زیادی جبران شده است.

منبع :http://www.algorithmnevis.com

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اجرا شده توسط: همیار وردپرس