НЕЙРОСЕТЕВОЕ УСТРОЙСТВО ДЛЯ РАСПОЗНАВАНИЯ РЕЧЕВЫХ КОМАНД НА БАЗЕ АППАРАТНЫХ УСКОРИТЕЛЕЙ СЕМЕЙСТВА NEUROMATRIX

Владислав В. Жолондковский, Юрий И. Бочаров, Владимир А. Бутузов

Аннотация


Рассматриваются различные подходы к решению задачи распознавания речевой команды в реальном времени с помощью искусственных нейронных сетей (ИНС) нескольких типов. Приведен краткий обзор глубоких полносвязных, сверточных и рекуррентных нейронных сетей. Показано, что ИНС сверточного и рекуррентного типа способны обеспечить необходимый уровень производительности и точности при формировании логического вывода (inference) в масштабе реального времени. Дается сравнение производительности сверточного и рекуррентного алгоритмов при их портировании на аппаратную платформу К1879ВМ6Я из семейства высокопроизводительных цифровых сигнальных процессоров NeuroMatrix. При портировании учтены особенности архитектуры микропроцессора. Все основные операции исполняются на векторно-матричном сопроцессоре. Продемонстрировано преимущество сверточной ИНС. С учетом результатов исследований нейросети этого типа на платформе К1879ВМ6Я осуществлен ее перенос на более производительный аппаратный ускоритель – систему на кристалле К1879ВМ8Я. Рассматриваются перспективы создания системы распознавания речи на платформе К1879ВМ8Я.


Ключевые слова


распознавание речи, искусственная нейронная сеть, сверточная нейронная сеть, микропроцессор, К1879ВМ8Я, К1879ВМ6Я.

Полный текст:

PDF

Литература


1. Bahdanau D., Chorowski J., Serdyuk D., et al. End-to-end attention-based large vocabulary speech recognition. 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2016,
p. 4945–4949. DOI: 10.1109/ICASSP.2016.7472618.

2. Bonet D., Cámbara G., et al. Speech Enhancement for Wake-Up-Word detection in Voice Assistants. IberSPEECH 2021. 2021, p. 41–45. DOI:10.21437/IberSPEECH.2021-9.

3. Бирюков А.А., Таранин М.В., Таранин С.В. Процессор 1879ВМ6Я. Реализация глубоких сверточных нейронных сетей. DSPA: Вопросы применения цифровой обработки сигналов. 2018, № 4, т. 8, c. 191–195. URL: https://www.module.ru/uploads/media/1534165451-18796-68958c488f.pdf (дата обращения: 09.04.2024)

4. Wang Z., Li X., Zhou J. Small-footprint Keyword Spotting Using Deep Neural Network and Connectionist Temporal Classifier, 2017. URL: https://arxiv.org/abs/1709.03665 (дата обращения: 02.04.2024).

5. Jose C., Mishchenko Yu., Senechal T. et al. Accurate Detection of Wake Word Start and End Using a CNN. Interspeech. 2020.
DOI: 10.21437/Interspeech.2020-1491.

6. Bluche T., Primet M., Gisselbrecht T. Small-Footprint Open-Vocabulary Keyword Spotting with Quantized LSTM Networks, 2020. URL: https://arxiv.org/abs/2002.10851 (дата обращения: 02.04.2024).

7. Muda L., Begam M., Elamvazuthi I. Voice Recognition Algorithms using Mel Frequency Cepstral Coefficient (MFCC) and Dynamic Time Warping (DTW) Techniques, 2010. URL: https://arxiv.org/abs/1003.4083 (дата обращения: 02.04.2024).

8. Warden P. Speech Commands: A Dataset for Limited-Vocabulary Speech Recognition, 2018.
URL: https://arxiv.org/abs/1804.03209 (дата обращения: 02.04.2024).

9. Yundong Z., Suda N., Lai L., Chandra V. Hello Edge: Keyword Spotting on Microcontrollers, 2017.
URL: https://arxiv.org/abs/1711.07128 (дата обращения: 02.04.2024).

10. He K., Zhang X., et al. Deep Residual Learning for Image Recognition. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, NV, USA. 2016, p. 770–778. DOI: 10.1109/CVPR.2016.90.

11. Hochreiter S., Schmidhuber J. Long short-term memory. Neural computation. 1997, v. 9(8), p. 1735–1780. DOI:10.1162/neco.1997.9.8.1735.

12. Amodei D., Anubha R., et al. Deep Speech 2: End-to-End Speech Recognition in English and Mandarin, 2015. URL: https://arxiv.org/abs/1512.02595 (дата обращения: 02.04.2024).

13. Kriman S., Beliaev S., Ginsburg B., et al. QuartzNet: Deep Automatic Speech Recognition with 1D Time-Channel Separable Convolutions, 2019. URL: https://arxiv.org/abs/1910.10261 (дата обращения: 02.04.2024).

14. López F., Luque J., et al. Robust Wake-Up Word Detection by Two-stage Multi-resolution Ensembles, 2013.
URL: https://arxiv.org/abs/2310.11379 (дата обращения: 02.04.2024).




DOI: http://dx.doi.org/10.26583/bit.2024.2.09

Ссылки

  • На текущий момент ссылки отсутствуют.


Лицензия Creative Commons
Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.