شبکه های عصبی کانولوشن برای تشخیص گفتار
Convolutional Neural Networks for Speech Recognition
مشخصات کلی
سال انتشار | 2014 |
کد مقاله | 4587 |
فرمت فایل ترجمه | Word |
تعداد صفحات ترجمه | 26 |
نام مجله | ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING |
نشریه | IEEE |
درج جداول و شکل ها در ترجمه | انجام شده است |
جداول داخل مقاله | ترجمه شده است |
چکیده فارسی
به تازگی، شبکه عصبی ترکیبی (DNN) مدل مارکوف (HMM) نشان داده که می تواند باعث بهبود عملکرد تشخیص گفتار در مدل گائوسی مرسوم (GMM) شود. بهبود عملکرد به توانایی DNN برای مدل سازی روابط پیچیده در صفات گفتاری مربوط است. در این مقاله، نشان می دهیم که با استفاده از شبکه های عصبی کانولوشن (CNN ها) می توانیم نرخ خطا را کاهش دهیم. ابتدا توصیف مختصری درباره CNN پایه ارائه می کنیم و در ادامه نحوه کار آن برای تشخیص گفتار را توضیح می دهیم. ما یک طرح اشتراک گذاری مقدار محدود پیشنهاد می کنیم که می تواند ویژگی های گفتار را بهتر مدل سازی نماید. ساختار ویژه آن مثل اتصال محلی، اشتراک گذاری مقدار و گردآوری در CNN ها نشان می دهد که برای تغییر ویژگی های گفتاری در محور فرکانس، تغییرات کمی ایجاد می شود که این نکته برای کار با متغیرهای محیطی و گوینده مهم است. نتایج تجربی نشان می دهند که CNN ها نسبت به DNN های تلفنی TIMIT و تشخیص گفتار واژگان بزرگ جستجوی صوتی، نرخ خطا را 6 تا 10 درصد کاهش می دهد.
چکیده لاتین
Recently, the hybrid deep neural network (DNN)- hidden Markov model (HMM) has been shown to significantly improve speech recognition performance over the conventional Gaussian mixture model (GMM)-HMM. The performance improvement is partially attributed to the ability of the DNN to model complex correlations in speech features. In this paper, we show that further error rate reduction can be obtained by using convolutional neural networks (CNNs). We first present a concise description of the basic CNN and explain how it can be used for speech recognition. We further propose a limited-weight-sharing scheme that can better model speech features. The special structure such as local connectivity, weight sharing, and pooling in CNNs exhibits some degree of invariance to small shifts of speech features along the frequency axis, which is important to deal with speaker and environment variations. Experimental results show that CNNs reduce the error rate by 6%-10% compared with DNNs on the TIMIT phone recognition and the voice search large vocabulary speech recognition tasks.
خرید و دانلود ترجمه این مقاله:
جهت خرید این مقاله ابتدا روی لینک زیر کلیک کنید، به صفحه ای وارد می شوید که باید نام و ایمیل خود را وارد کنید و پس از آن روی دکمه خرید و پرداخت کلیک نمایید، پس از پرداخت بلافاصله به سایت بازگشته و می توانید فایل خود را دانلود کنید، همچنین لینک دانلود به ایمیل شما نیز ارسال خواهد شد.
هیچ دیدگاهی برای این مقاله ثبت نشده است
دیدگاه ها