АНСАМБЛЬ СОВРЕМЕННЫХ МОДЕЛЕЙ КОМПЬЮТЕРНОГО ЗРЕНИЯ ДЛЯ ЗАДАЧИ ОБНАРУЖЕНИЯ ДИПФЕЙКОВ
Аннотация
Исследуется возможность применения современных архитектур компьютерного зрения для задачи обнаружения дипфейков. Рассматриваются следующие архитектуры: EfficientNet, Vision Transformer (ViT), VisionLSTM (ViL), VisionKAN и Mamba Vision. Новизна подхода заключается в применении и сравнении работы данных архитектур, а также в их объединении в парные ансамбли для повышения точности детекции дипфейков. В работе проведен эксперимент, основанный на применении нескольких архитектур для обработки изображений. Каждая архитектура применяется как отдельно, так и в составе ансамбля, состоящего из двух моделей. Набор данных для эксперимента был сформирован из фреймов видео с дипфейками. Полученные фреймы были подвержены различным аугментациям. Результаты экспериментов показали, что применение ансамблей современных архитектур повышает точность распознавания дипфейков. Ансамбль ViT и VisionLSTM показал -меру 97,68%, что выше, чем применение данных архитектур по отдельности. Однако не все ансамбли привели к улучшению показателей. Например, комбинация Mamba Vision и VisionLSTM продемонстрировала снижение -меры до 95,78% в сравнении с использованием Mamba Vision в одиночку. Результаты исследования полезны для специалистов, работающих в области компьютерного зрения, кибербезопасности и анализа мультимедийного контента. Применение предложенных архитектур и их ансамблей может быть эффективно в задачах по обнаружению дипфейков и других форм поддельного контента, что важно для защиты от информационных угроз.
Ключевые слова
Полный текст:
PDFЛитература
1. LeCun Y., Bengio Y. Convolutional networks for images, speech, and time series. The handbook of brain theory and neural networks. 1998, p. 255–258. URL: https://www.semanticscholar.org/paper/Convolutional-networks-for-images%2C-speech%2C-and-time-LeCun-Bengio/563e821bb5ea825efb56b77484f5287f08cf3753 (дата обращения: 23.08.2024).
2. Hochreiter S., Schmidhuber J. Long Short-Term Memory, in Neural Computation, v. 9, no. 8, p. 1735–1780,
15 Nov. 1997. DOI: 10.1162/neco.1997.9.8.1735.
3. Luong T., Pham H., Manning C. Effective Approaches to Attention-based Neural Machine Translation. In Proceedings of EMNLP. 2015, p. 1412–1421.
DOI: https://doi.org/10.48550/arXiv.1508.04025.
4. Mingxing T., Quoc V. Le. EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks. The 36th International Conference on Machine Learning. 2019, p. 6105–6114. URL: https://arxiv.org/pdf/1905.11946 (дата обращения: 23.08.2024).
5. Sandler M., Howard A., Zhu M., Zhmoginov A., Liang-Chieh Chen. MobileNetV2: Inverted Residuals and Linear Bottlenecks. IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, UT, USA. 2018, p. 4510–4520.
DOI: 10.1109/CVPR.2018.00474.
6. Dosovitskiy A., Beyer L., Kolesnikov A., Weissenborn D., Zhai X., Unterthiner T., Dehghani M., Minderer M., Heigold G., Gelly S., Uszkoreit J., & Houlsby N. ArXiv, 2020. URL: https://arxiv.org/abs/2010.11929 (дата обращения: 23.08.2024).
7. Ba J., Kiros J.R., & Hinton G.E. Layer Normalization. ArXiv, 2016. URL: https://arxiv.org/abs/1607.06450 (дата обращения: 23.08.2024).
8. Vaswani A., Shazeer N., Parmar N., Uszkoreit J., Jones L., Gomez Aidan N., Kaiser L., Polosukhin I. Attention is All You Need. ArXiv, 2017. URL: https://arxiv.org/abs/1706.03762 (дата обращения: 23.08.2024).
9. Alkin B., Beck M., Pöppel K., Hochreiter S., Brandstetter J. Vision-LSTM: xLSTM as Generic Vision Backbone. ArXiv, 2024. URL: https://arxiv.org/html/2406.04303v2 (дата обращения: 23.08.2024).
10. Dayan P., Willshaw D.J. Optimising synaptic learning rules in linear associative memories. Biological Cybernetics. 1991, p. 253–265. DOI: https://doi.org/10.1007/BF00206223.
11. Gers F.A., Schmidhuber J., Cummins F. Learning to forget: Continual prediction with LSTM. Neural Compututation. Neural Computation. 2000, p. 2451–2471.
DOI: 10.1162/089976600300015015.
12. Liu Z, Wang Y, Vaidya S, Ruehle F, Halverson J, Soljačić M, Hou TY, Tegmark M. Kan: Kolmogorov-arnold networks. ArXiv, 2024. URL: https://arxiv.org/abs/2404.19756 (дата обращения: 23.08.2024).
13. Kolmogorov A.K. On the Representation of Continuous Functions of Several Variables by Superposition of Continuous Functions of One Variable and Addition. Doklady Akademii Nauk SSSR. 1957, p. 369–373.
14. Zhu L., Liao B., Zhang Q., Wang X., Liu W., Wang, X. Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model. ArXiv. 2024. URL: https://arxiv.org/abs/2401.09417 (дата обращения: 23.08.2024).
15. Gu A., Dao, T. Mamba: Linear-Time Sequence Modeling with Selective State Spaces. ArXiv, 2023. URL: https://arxiv.org/abs/2312.00752 (дата обращения: 23.08.2024).
16. Huyen C. Designing Machine Learning Systems: An Iterative Process for Production-ready Applications. O'Reilly Media, Incorporated. 2022. – 367 p. ISBN-13: 1098107969, 9781098107963.
DOI: http://dx.doi.org/10.26583/bit.2024.4.08
Ссылки
- На текущий момент ссылки отсутствуют.

Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.





