ФОРМИРОВАНИЕ РАЗМЕЧЕННОГО НАБОРА ДАННЫХ НА ОСНОВЕ СМОДЕЛИРОВАННЫХ КОМПЬЮТЕРНЫХ АТАК

Алексей В. Павлычев, Кирилл В. Кузьминец, Данил Е. Бреус, Александр А. Шелупанов

Аннотация


В рамках работы предложен подход к созданию массива данных, необходимого для будущих систем машинного обучения искусственного интеллекта, предназначенных для противодействия компьютерным атакам. Авторами проведен краткий обзор современных способов выявления компьютерных атак, в том числе с помощью анализа лог-файлов операционной системы с применением методов машинного обучения. Рассмотрены различные подходы к моделированию атак и формированию наборов данных. Предложен алгоритм для формирования базы данных из записей системных журналов и соответствующих им компьютерных атаках и сценариях пользовательской работы, учитывающий различные подходы и лучшие практики. Для реализации алгоритма спроектирована и развернута виртуальная сетевая инфраструктура, предназначенная для автоматизированного извлечения файлов системных журналов операционной системы после запуска заранее подготовленных скриптов. В результате проведенного исследования сформулирован алгоритм моделирования компьютерных атак и формирования размеченного набора данных из системных журналов операционной системы. Согласно разработанному алгоритму в результате проведенной серии экспериментов получена база данных, которую можно использовать для обучения моделей машинного обучения и применения в современных интеллектуальных средствах защиты информации. Датасет, содержащий 1 473 559 записей, размещен на платформе Kaggle. Научная новизна заключается в доработке алгоритма моделирования компьютерных атак и формирования набора данных из системных журналов операционной системы, который в отличие от существующих подходов автоматизирует процесс сбора данных, что обеспечивает более полное покрытие тактик MITRE ATT&СК. Усовершенствованный алгоритм включает механизмы валидации выполнения скриптов и передачи метаданных, что повышает достоверность данных, получаемых в ходе выполнения скриптов и формирования датасета, в отличие от алгоритмов, не учитывающих данные аспекты.

Ключевые слова


алгоритм, компьютерные атаки, тактики и техники, системные журналы, машинное обучение, набор данных.

Полный текст:

PDF

Литература


1. Qadeer M.A. et al. Network traffic analysis and intrusion detection using packet sniffer. Second International Conference on Communication Software and Networks. IEEE, 2010, p. 313–317. DOI: http://dx.doi.org/10.1109/ICCSN.2010.104.

2. He S. et al. Experience report: System log analysis for anomaly detection. IEEE 27th international symposium on software reliability engineering (ISSRE). IEEE, 2016, p. 207–218. DOI: http://dx.doi.org/10.1109/ISSRE.2016.21.

3. Nehinbe J.O. Log Analyzer for Network Forensics and Incident Reporting. International Conference on Intelligent Systems, Modelling and Simulation. IEEE, 2010, p. 356–361. DOI: http://dx.doi.org/10.1109/ISMS.2010.71.

4. Грибачёв А.С., Кальщиков В.В., Ручай А.Н. Методы, алгоритмы и базы данных обнаружения компьютерных инцидентов. Вестник УрФО. Безопасность в информационной сфере. 2024, т. 1, № 51, с. 45–52. URL: http://info-secur.ru/index.php/ojs/article/view/441/399 (дата обращения: 18.09.2025).

5. Павлычев А.В., Стародубов М.И. Формирование набора данных в задаче обнаружения компьютерных атак с использованием методов машинного обучения.Современное образование: интеграция образования, науки, бизнеса и власти. Трансформация образования, науки и производства-основа технологического прорыва. 2023, c. 161–166. URL: https://elibrary.ru/item.asp?id=51907642 (дата обращения: 18.09.2025).

6. Lippmann R.P. et al. Evaluating intrusion detection systems: The 1998 DARPA off-line intrusion detection evaluation. Proceedings DARPA Information Survivability Conference and Exposition. DISCEX'00. IEEE, 2000, v. 2, p. 12–26. DOI: http://dx.doi.org/10.1109/DISCEX.2000.821506.

7. Brown C. et al. Analysis of the 1999 darpa/lincoln laboratory ids evaluation data with netadhict. IEEE Symposium on Computational Intelligence for Security and Defense Applications. IEEE, 2009, p. 1–7. DOI: http://dx.doi.org/10.1007/978-3-540-45248-5_13.

8. Bolon-Canedo V., Sanchez-Marono N., Alonso-Betanzos A. Feature selection and classification in multiple class datasets: An application to KDD Cup 99 dataset. Expert Systems with Applications. 2011, p. 38, no. 5,
p. 5947–5957. DOI: http://dx.doi.org/10.1016/j.eswa.2010.11.028.

9. Tavallaee M. et al. A detailed analysis of the KDD CUP 99 data set. IEEE symposium on computational intelligence for security and defense applications. IEEE, 2009, p. 1–6. DOI: http://dx.doi.org/10.1109/CISDA.2009.5356528.

10. Dhanabal L., Shantharajah S.P. A study on NSL-KDD dataset for intrusion detection system based on classification algorithms. International journal of advanced research in computer and communication engineering. 2015, v. 4, no. 6, p. 446–452. DOI: http://dx.doi.org/10.17148/IJARCCE.2015.4696.

11. Ghurab M. et al. A detailed analysis of benchmark datasets for network intrusion detection system. Asian Journal of Research in Computer Science. 2021, v. 7, no. 4, p. 14–33. URL: https://papers.ssrn.com/sol3/papers.cfm?abstract_id=3834787 (дата обращения: 18.09.2025).

12. Carvalho D.V., Pereira E.M., Cardoso J.S. Machine learning interpretability: A survey on methods and metrics. Electronics. 2019, v. 8, no. 8, p. 832. DOI: http://dx.doi.org/10.3390/electronics8080832.

13. Amrollahi M. et al. Enhancing network security via machine learning: opportunities and challenges. Handbook of big data privacy. 2020, p. 165–189. DOI: http://dx.doi.org/10.1007/978-3-030-38557-6_8.

14. Banerjee J. et al. Impact of machine learning in various network security applications. 3rd International conference on computing methodologies and communication (ICCMC). IEEE, 2019, p. 276–281. DOI: http://dx.doi.org/10.1109/ICCMC.2019.8819811.

15. Leblanc S.P. et al. An overview of cyber attack and computer network operations simulation. Proceedings of the 2011 Military Modeling & Simulation Symposium. 2011, p. 92–100. DOI: http://dx.doi.org/10.5555/2048558.2048572.

16. Strom B.E. et al. Mitre att&ck: Design and philosophy. Technical report. The MITRE Corporation, 2018. URL: https://www.mitre.org/sites/default/files/2021-11/prs-19-01075-28-mitre-attack-design-and-philosophy.pdf (дата обращения: 18.09.2025).

17. Dwyer J., Truta T. M. Finding anomalies in windows event logs using standard deviation. 9th IEEE International Conference on Collaborative Computing: Networking, Applications and Worksharing. 2013,
p. 563–570. DOI: http://dx.doi.org/10.4108/icst.collaboratecom.2013.254136.

18. Smiliotopoulos C., Kambourakis G., Barbatsalou K. On the detection of lateral movement through supervised machine learning and an open-source tool to create turnkey datasets from Sysmon logs. International Journal of Information Security. 2023, v. 22, no. 6, p. 1893–1919. DOI: http://dx.doi.org/10.1007/s10207-023-00725-8.

19. Smiliotopoulos C., Kambourakis G., Kolias C. Detecting lateral movement: A systematic survey. Heliyon. 2024, v. 10, no. 4. DOI: http://dx.doi.org/10.1016/j.heliyon.2024.e26317.

20. Smiliotopoulos C., Barmpatsalou K., Kambourakis G. Revisiting the detection of lateral movement through Sysmon. Applied Sciences. 2022, v. 12, no. 15, p. 7746. DOI: http://dx.doi.org/10.3390/app12157746.

21. Rahal K., Riahi A., Debatty T. Dataset of APT Persistence Techniques on Windows Platforms Mapped to the MITRE ATT&CK Framework. 28th Conference on Innovation in Clouds, Internet and Networks (ICIN). IEEE, 2025, p. 17–24. DOI: http://dx.doi.org/10.1109/ICIN64016.2025.10943025.

22. Husselman L. Anomaly Detection with Windows Event Logs: A comparative study between traditional and ML based approaches. University of Zurich, 2024. DOI: http://dx.doi.org/10.5167/uzh-264648.




DOI: http://dx.doi.org/10.26583/bit.2025.4.01

Ссылки

  • На текущий момент ссылки отсутствуют.


Лицензия Creative Commons
Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.