НЕЙРОСЕТЕВОЕ УСТРОЙСТВО ДЛЯ РАСПОЗНАВАНИЯ РЕЧЕВЫХ КОМАНД НА БАЗЕ АППАРАТНЫХ УСКОРИТЕЛЕЙ СЕМЕЙСТВА NEUROMATRIX
Аннотация
Рассматриваются различные подходы к решению задачи распознавания речевой команды в реальном времени с помощью искусственных нейронных сетей (ИНС) нескольких типов. Приведен краткий обзор глубоких полносвязных, сверточных и рекуррентных нейронных сетей. Показано, что ИНС сверточного и рекуррентного типа способны обеспечить необходимый уровень производительности и точности при формировании логического вывода (inference) в масштабе реального времени. Дается сравнение производительности сверточного и рекуррентного алгоритмов при их портировании на аппаратную платформу К1879ВМ6Я из семейства высокопроизводительных цифровых сигнальных процессоров NeuroMatrix. При портировании учтены особенности архитектуры микропроцессора. Все основные операции исполняются на векторно-матричном сопроцессоре. Продемонстрировано преимущество сверточной ИНС. С учетом результатов исследований нейросети этого типа на платформе К1879ВМ6Я осуществлен ее перенос на более производительный аппаратный ускоритель – систему на кристалле К1879ВМ8Я. Рассматриваются перспективы создания системы распознавания речи на платформе К1879ВМ8Я.
Ключевые слова
Полный текст:
PDFЛитература
1. Bahdanau D., Chorowski J., Serdyuk D., et al. End-to-end attention-based large vocabulary speech recognition. 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2016,
p. 4945–4949. DOI: 10.1109/ICASSP.2016.7472618.
2. Bonet D., Cámbara G., et al. Speech Enhancement for Wake-Up-Word detection in Voice Assistants. IberSPEECH 2021. 2021, p. 41–45. DOI:10.21437/IberSPEECH.2021-9.
3. Бирюков А.А., Таранин М.В., Таранин С.В. Процессор 1879ВМ6Я. Реализация глубоких сверточных нейронных сетей. DSPA: Вопросы применения цифровой обработки сигналов. 2018, № 4, т. 8, c. 191–195. URL: https://www.module.ru/uploads/media/1534165451-18796-68958c488f.pdf (дата обращения: 09.04.2024)
4. Wang Z., Li X., Zhou J. Small-footprint Keyword Spotting Using Deep Neural Network and Connectionist Temporal Classifier, 2017. URL: https://arxiv.org/abs/1709.03665 (дата обращения: 02.04.2024).
5. Jose C., Mishchenko Yu., Senechal T. et al. Accurate Detection of Wake Word Start and End Using a CNN. Interspeech. 2020.
DOI: 10.21437/Interspeech.2020-1491.
6. Bluche T., Primet M., Gisselbrecht T. Small-Footprint Open-Vocabulary Keyword Spotting with Quantized LSTM Networks, 2020. URL: https://arxiv.org/abs/2002.10851 (дата обращения: 02.04.2024).
7. Muda L., Begam M., Elamvazuthi I. Voice Recognition Algorithms using Mel Frequency Cepstral Coefficient (MFCC) and Dynamic Time Warping (DTW) Techniques, 2010. URL: https://arxiv.org/abs/1003.4083 (дата обращения: 02.04.2024).
8. Warden P. Speech Commands: A Dataset for Limited-Vocabulary Speech Recognition, 2018.
URL: https://arxiv.org/abs/1804.03209 (дата обращения: 02.04.2024).
9. Yundong Z., Suda N., Lai L., Chandra V. Hello Edge: Keyword Spotting on Microcontrollers, 2017.
URL: https://arxiv.org/abs/1711.07128 (дата обращения: 02.04.2024).
10. He K., Zhang X., et al. Deep Residual Learning for Image Recognition. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, NV, USA. 2016, p. 770–778. DOI: 10.1109/CVPR.2016.90.
11. Hochreiter S., Schmidhuber J. Long short-term memory. Neural computation. 1997, v. 9(8), p. 1735–1780. DOI:10.1162/neco.1997.9.8.1735.
12. Amodei D., Anubha R., et al. Deep Speech 2: End-to-End Speech Recognition in English and Mandarin, 2015. URL: https://arxiv.org/abs/1512.02595 (дата обращения: 02.04.2024).
13. Kriman S., Beliaev S., Ginsburg B., et al. QuartzNet: Deep Automatic Speech Recognition with 1D Time-Channel Separable Convolutions, 2019. URL: https://arxiv.org/abs/1910.10261 (дата обращения: 02.04.2024).
14. López F., Luque J., et al. Robust Wake-Up Word Detection by Two-stage Multi-resolution Ensembles, 2013.
URL: https://arxiv.org/abs/2310.11379 (дата обращения: 02.04.2024).
DOI: http://dx.doi.org/10.26583/bit.2024.2.09
Ссылки
- На текущий момент ссылки отсутствуют.
Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.