КОДИРОВАНИЕ ИЗОБРАЖЕНИЙ СПЕКТРОГРАММ ДЛЯ ОБЕСПЕЧЕНИЯ ПЕРЕМЕННОЙ СКОРОСТИ ПЕРЕДАЧИ АУДИОДАННЫХ С СОХРАНЕНИЕМ КАЧЕСТВА ИХ ЗВУЧАНИЯ
Аннотация
В приложениях, аудио контроля и фиксации в условиях информационно-технического противодействия, шумоподавления, формирования цифровых водяных знаков, звуковых отпечатков, защитных текстовых аудиомаркеров и др. требуется компактное представление речевых сигналов для последующей передачи-хранения при максимальном сохранении сходства звучания восстановленной речи с оригиналом, устранении сопутствующих шумов и помех. Предлагаемый аудиокодек основан на узкополосной синусоидальной Гауссовой модели анализа/синтеза речи, где ее представление в виде суперпозиции гармонических составляющих, взвешенных окном Гаусса, применимо для всех видов речевых фреймов, а также на универсальных и специальных методах построения и обработки изображений узкополосных динамических спектрограмм с применением к ним алгоритмов сжатия-восстановления, что позволяет регулировать скорость речевого потока в широких пределах (1,2–16 Кбит/с)с адаптацией к изменениям пропускной способности канала передачи-хранения аудиоданных, обусловленными как объективными факторами, так и действиями злоумышленника. Целью работы является выбор наилучших параметров на изображениях спектрограмм, которые уменьшают общий битрейт, устраняют влияние шумов и помех и позволяют посредством методов и алгоритмов спектральной инверсии восстановить речевой сигнал с прежним или лучшим качеством звучания. Параметры извлекаются из изображений спектрограмм, полученных с помощью кратковременного преобразования Фурье, используя методы выделения на спектральных срезах амплитуд, частот, фаз и треков развития отобранных опорных локальных и/или глобальных максимумов (пиков) речевого сигнала. В канал связи могут передаваться либо сами параметры, либо результаты сжатия-кодирования изображений для восстановления по ним на приемном конце образа исходной спектрограммы с выделением на ней параметров пиков с последующим синтезом по ним речи или для прямой спектральной инверсии восстановленного после сжатия изображения в речь. Возможна корректировка реконструируемой спектрограммы с использованием априорных сведений о речи диктора из заранее сформированной его голосовой базы данных.
Ключевые слова
Полный текст:
PDFЛитература
1. Spanias, Speech Coding: A Tutorial Review, Proc. of the IEEE, Vol. 82. No. 10. P. 1541–1582, Oct. 94.
DOI: http://dx.doi.org/10.1109/5.326413.
2. Samer J. Alabed, Eyad A. Ibrahim. A new sinusoidal speech coding technique with speech Enhancer at low bit rates. International Journal of Electronics and Communication Engineering & Technology (IJECET). Vol. 5, Issue 4, April (2014). P. 07–18. URL:https://www.academia.edu/17677709/2_a_new_sinusoidal_
speech_coding_technique_with_speech_enhancer_at_low_bit_rates (дата обращения: 08.11.2021).
3. R.J. McAulay and T.F. Quatieri, Speech Analysis/Synthesis Based on a Sinusoidal Representation, IEEE Trans. On ASSP. Vol. ASSP-34. No. 4. P. 744–754, August 1986.
DOI: http://dx.doi.org/10.1109/TASSP.1986.1164910 (дата обращения: 08.11.2021).
4. Griffin D.W. and Lim J.S., Signal estimation from modified short-time Fourier transform, IEEE Transactions on Acoustics, Speech and Signal Processing. 1984. P. 236–243.
DOI: http://dx.doi.org/10.1109/TASSP.1984.1164317.
5. Дворянкин Сергей В.; Дворянкин Никита С.; Устинов Роман А. Развитие технологий образного анализа-синтеза акустической (речевой) информации в системах управления, безопасности и связи. Безопасность информационных технологий, [S.l.]. Т. 26, № 1. С. 64–76, 2019. ISSN 2074-7136.
DOI: http://dx.doi.org/10.26583/bit.2019.1.07.
6. Дворянкин Сергей В. и др. Системное моделирование речеподобных сигналов и его применение в сфере безопасности, связи и управления. Безопасность информационных технологий, [S.l.]. Т. 26, № 4.
С. 101–119, 2019. ISSN 2074-7136. DOI: http://dx.doi.org/10.26583/bit.2019.4.08.
7. Dan Ellis. Robust Landmark-Based Audio Fingerprinting.
MATLAB Central File Exchange. Retrieved November 2, 2021.
URL: https://www.mathworks.com/matlabcentral/fileexchange/23332-robust-landmark-based-audio-fingerprinting (дата обращения: 08.11.2021).
8. Дворянкин С.В., Михайлов Д.М., Панфилов Л.А., Бонч-Бруевич А.М., Козлачков С.Б., Насенков И.Г. Интерпретация и контурный анализ спектрограмм звуковых сигналов в процессе их шумоочистки. Проблемы информационной безопасности. Компьютерные системы. 2015. № 3. С. 88–99.
URL: https://jisp.ru/volume/2015/ (дата обращения: 25.11.2021).
9. Yoshiki Masuyama, Kohei Yatabe, Yuma Koizumi, Yasuhiro Oikawa, and Noboru Harada. Deep griffin–lim iteration. In IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP).
P. 61–65, 2019. DOI: http://dx.doi.org/10.1109/ICASSP.2019.8682744.
10. Женило В. Р. Компьютерная фоноскопия. М.: Изд-во Академии МВД России, 1995. – 207 c.
11. Алюшин В.М., Дворянкин С.В. Технологии образного анализа в задачах цифровой обработки речевой информации. Научная визуализация. 2013. Т. 5. № 3. С. 75–88. URL: http://sv-journal.org/2013-3/06/index.html (дата обращения: 08.11.2021).
12. Дворянкин С.В., Устинов Р.А. Методы синтеза речеподобных сигналов по изображениям динамических спектрограмм / II Межведомственная научно-практическая конференция «Телекоммуникации и кибербезопасность: специальные системы и технологии». Сб. тр. // Под ред. засл. деятеля науки РФ, почетного радиста РФ, дтн, проф. В.А. Цимбала и дтн, проф. О.И. Атакищева. Серпухов: МОУ «ИИФ», 2020. Т. 3. С. 170–180.
13. Yoshiki Masuyama, Kohei Yatabe, and Yasuhiro Oikawa. Griffin–lim like phase recovery via alternating direction method of multipliers. IEEE Signal Processing Letters, 26(1):184–188, 2018.
DOI: http://dx.doi.org/10.1109/LSP.2018.2884026.
14. S.Ö. Arık, H. Jun and G. Diamos. Fast Spectrogram Inversion Using Multi-Head Convolutional Neural Networks, in IEEE Signal Processing Letters. Vol. 26, no. 1. P. 94–98, Jan. 2019.
DOI: http://dx.doi.org/10.1109/LSP.2018.2880284.
15. Sharma, A., Kumar, P., Maddukuri, V. et al. Fast Griffin Lim based waveform generation strategy for text-to-speech synthesis. Multimed Tools Appl 79, 30205–30233 (2020).
DOI: http://dx.doi.org/10.1007/s11042-020-09321-7.
DOI: http://dx.doi.org/10.26583/bit.2021.4.02
Ссылки
- На текущий момент ссылки отсутствуют.
Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.