КОДИРОВАНИЕ ИЗОБРАЖЕНИЙ СПЕКТРОГРАММ ДЛЯ ОБЕСПЕЧЕНИЯ ПЕРЕМЕННОЙ СКОРОСТИ ПЕРЕДАЧИ АУДИОДАННЫХ С СОХРАНЕНИЕМ КАЧЕСТВА ИХ ЗВУЧАНИЯ

Сергей В. Дворянкин, Артём Е. Зенов, Роман А. Устинов, Никита С. Дворянкин

Аннотация


В приложениях, аудио контроля и фиксации в условиях информационно-технического противодействия, шумоподавления, формирования цифровых водяных знаков, звуковых отпечатков, защитных текстовых аудиомаркеров и др. требуется компактное представление речевых сигналов для последующей передачи-хранения при максимальном сохранении сходства звучания восстановленной речи с оригиналом, устранении сопутствующих шумов и помех. Предлагаемый аудиокодек основан на узкополосной синусоидальной Гауссовой модели анализа/синтеза речи, где ее представление в виде суперпозиции гармонических составляющих, взвешенных окном Гаусса, применимо для всех видов речевых фреймов, а также на универсальных и специальных методах построения и обработки изображений узкополосных динамических спектрограмм с применением к ним алгоритмов сжатия-восстановления, что позволяет регулировать скорость речевого потока в широких пределах (1,216 Кбит/с)с адаптацией к изменениям пропускной способности канала передачи-хранения аудиоданных, обусловленными как объективными факторами, так и действиями злоумышленника. Целью работы является выбор наилучших параметров на изображениях спектрограмм, которые уменьшают общий битрейт, устраняют влияние шумов и помех и позволяют посредством методов и алгоритмов спектральной инверсии восстановить речевой сигнал с прежним или лучшим качеством звучания. Параметры извлекаются из изображений спектрограмм, полученных с помощью кратковременного преобразования Фурье, используя методы выделения на спектральных срезах амплитуд, частот, фаз и треков развития отобранных опорных локальных и/или глобальных максимумов (пиков) речевого сигнала. В канал связи могут передаваться либо сами параметры, либо результаты сжатия-кодирования изображений для восстановления по ним на приемном конце образа исходной спектрограммы с выделением на ней параметров пиков с последующим синтезом по ним речи или для прямой спектральной инверсии восстановленного после сжатия изображения в речь. Возможна корректировка реконструируемой спектрограммы с использованием априорных сведений о речи диктора из заранее сформированной его голосовой базы данных. 


Ключевые слова


защита речевой информации, аудио контроль, сжатие речи, улучшение речи, синусоидальная модель, инверсия спектрограмм, кратковременное преобразование Фурье, звуковой отпечаток.

Полный текст:

PDF

Литература


1. Spanias, Speech Coding: A Tutorial Review, Proc. of the IEEE, Vol. 82. No. 10. P. 1541–1582, Oct. 94.
DOI: http://dx.doi.org/10.1109/5.326413.

2. Samer J. Alabed, Eyad A. Ibrahim. A new sinusoidal speech coding technique with speech Enhancer at low bit rates. International Journal of Electronics and Communication Engineering & Technology (IJECET). Vol. 5, Issue 4, April (2014). P. 07–18. URL:https://www.academia.edu/17677709/2_a_new_sinusoidal_
speech_coding_technique_with_speech_enhancer_at_low_bit_rates (дата обращения: 08.11.2021).

3. R.J. McAulay and T.F. Quatieri, Speech Analysis/Synthesis Based on a Sinusoidal Representation, IEEE Trans. On ASSP. Vol. ASSP-34. No. 4. P. 744–754, August 1986.
DOI: http://dx.doi.org/10.1109/TASSP.1986.1164910 (дата обращения: 08.11.2021).

4. Griffin D.W. and Lim J.S., Signal estimation from modified short-time Fourier transform, IEEE Transactions on Acoustics, Speech and Signal Processing. 1984. P. 236–243.
DOI: http://dx.doi.org/10.1109/TASSP.1984.1164317.

5. Дворянкин Сергей В.; Дворянкин Никита С.; Устинов Роман А. Развитие технологий образного анализа-синтеза акустической (речевой) информации в системах управления, безопасности и связи. Безопасность информационных технологий, [S.l.]. Т. 26, № 1. С. 64–76, 2019. ISSN 2074-7136.
DOI: http://dx.doi.org/10.26583/bit.2019.1.07.

6. Дворянкин Сергей В. и др. Системное моделирование речеподобных сигналов и его применение в сфере безопасности, связи и управления. Безопасность информационных технологий, [S.l.]. Т. 26, № 4.
С. 101–119, 2019. ISSN 2074-7136. DOI: http://dx.doi.org/10.26583/bit.2019.4.08.

7. Dan Ellis. Robust Landmark-Based Audio Fingerprinting.
MATLAB Central File Exchange. Retrieved November 2, 2021.
URL: https://www.mathworks.com/matlabcentral/fileexchange/23332-robust-landmark-based-audio-fingerprinting (дата обращения: 08.11.2021).

8. Дворянкин С.В., Михайлов Д.М., Панфилов Л.А., Бонч-Бруевич А.М., Козлачков С.Б., Насенков И.Г. Интерпретация и контурный анализ спектрограмм звуковых сигналов в процессе их шумоочистки. Проблемы информационной безопасности. Компьютерные системы. 2015. № 3. С. 88–99.
URL: https://jisp.ru/volume/2015/ (дата обращения: 25.11.2021).

9. Yoshiki Masuyama, Kohei Yatabe, Yuma Koizumi, Yasuhiro Oikawa, and Noboru Harada. Deep griffin–lim iteration. In IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP).
P. 61–65, 2019. DOI: http://dx.doi.org/10.1109/ICASSP.2019.8682744.

10. Женило В. Р. Компьютерная фоноскопия. М.: Изд-во Академии МВД России, 1995. – 207 c.

11. Алюшин В.М., Дворянкин С.В. Технологии образного анализа в задачах цифровой обработки речевой информации. Научная визуализация. 2013. Т. 5. № 3. С. 75–88. URL: http://sv-journal.org/2013-3/06/index.html (дата обращения: 08.11.2021).

12. Дворянкин С.В., Устинов Р.А. Методы синтеза речеподобных сигналов по изображениям динамических спектрограмм / II Межведомственная научно-практическая конференция «Телекоммуникации и кибербезопасность: специальные системы и технологии». Сб. тр. // Под ред. засл. деятеля науки РФ, почетного радиста РФ, дтн, проф. В.А. Цимбала и дтн, проф. О.И. Атакищева. Серпухов: МОУ «ИИФ», 2020. Т. 3. С. 170–180.

13. Yoshiki Masuyama, Kohei Yatabe, and Yasuhiro Oikawa. Griffin–lim like phase recovery via alternating direction method of multipliers. IEEE Signal Processing Letters, 26(1):184–188, 2018.
DOI: http://dx.doi.org/10.1109/LSP.2018.2884026.

14. S.Ö. Arık, H. Jun and G. Diamos. Fast Spectrogram Inversion Using Multi-Head Convolutional Neural Networks, in IEEE Signal Processing Letters. Vol. 26, no. 1. P. 94–98, Jan. 2019.
DOI: http://dx.doi.org/10.1109/LSP.2018.2880284.

15. Sharma, A., Kumar, P., Maddukuri, V. et al. Fast Griffin Lim based waveform generation strategy for text-to-speech synthesis. Multimed Tools Appl 79, 30205–30233 (2020).
DOI: http://dx.doi.org/10.1007/s11042-020-09321-7.




DOI: http://dx.doi.org/10.26583/bit.2021.4.02

Ссылки

  • На текущий момент ссылки отсутствуют.


Лицензия Creative Commons
Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.