ПРОБЛЕМА ДИСБАЛАНСА КЛАССОВ В ЗАДАЧЕ ПРОТИВОДЕЙСТВИЯ МОШЕННИЧЕСТВУ: МЕТРИКИ, СЕМПЛИРОВАНИЕ И СВЁРТОЧНЫЕ НЕЙРОННЫЕ СЕТИ

Руслан Ч. Бобоназаров

Аннотация


Объем операций, совершенных без согласия клиентов финансовых организаций согласно статистике Центрального банка Российской Федерации (ЦБ РФ), вырос на 11.48% в 2023 г. по сравнению с предыдущим, поэтому актуальны исследования, направленные на совершенствование существующих и поиск новых методов противодействия мошенничеству (антифрода). Задача противодействия мошенничеству сильно осложняется проблемой дисбалансом классов – доля нелигитимных операций относительно всего потока операций крайне мала и составляет тысячные доли процента. Кроме того, банки не могут делится в открытом доступе информацией о мошенничестве и денежных операциях, поскольку это конфиденциальная информация, попадающая под действие федерального закона № 152 «О персональных данных», а исследователи, используя общедоступные датасеты, применяют разные подходы к оценке моделей, часть из которых не показательна в условиях сильного дисбаланса классов. В данном исследовании предлагается использовать для сравнения моделей PR-кривую и PR-AUC (площадь под данной кривой), а также показано, почему эти метрики релевантны, в отличие от большинства других. Также в исследовании показаны частые ошибки, совершаемые в академических работах – некорректные ресемплинги до разбиения на выборки; а также демонстрируется, что случайное проведение разбиения на выборки не по метке времени может сильно отражаться на итоговых результатах и искажать их. В заключительной части исследования предлагается подход использования сверточных нейронных сетей к задаче детектирования мошенничества, позволивший достичь показателя 0.91 по PR-AUC, что сильно превосходит результаты всех классических подходов.

Ключевые слова


противодействие мошенничеству, антифрод, машинное обучение, дисбаланс классов, PR AUC, оверсемплинг, андерсемплинг, свёрточные нейронные сети.

Полный текст:

PDF

Литература


1. Dal Pozzolo, Andrea & Caelen, Olivier & Johnson, Reid & Bontempi, Gianluca. (2015). Calibrating Probability with Undersampling for Unbalanced Classification.
DOI: 10.1109/SSCI.2015.33.

2. Awoyemi J.O., Adetunmbi A.O. and Oluwadare S.A. Credit card fraud detection using machine learning techniques: A comparative analysis. 2017 International Conference on Computing Networking and Informatics (ICCNI), Lagos, Nigeria. 2017, p. 1–9.
DOI: 10.1109/ICCNI.2017.8123782.

3. Palak Gupta, Anmol Varshney, Mohammad Rafeek Khan, Rafeeq Ahmed, Mohammed Shuaib, Shadab Alam, Unbalanced Credit Card Fraud Detection Data: A Machine Learning-Oriented Comparative Study of Balancing Techniques, Procedia Computer Science. 2023, v. 218, p. 2575–2584, ISSN 1877-0509.
DOI: https://doi.org/10.1016/j.procs.2023.01.231.

4. Ranjan, Nihar & Mate, Gitanjali & Jadhav, Archana & Patil, D. & Banubakode, A. (2024). Credit Card Fraud Detection by Using Ensemble Method of Machine Learning. Advances in Data-Driven Computing and Intelligent Systems. 2024, p. 449–460.
DOI: 10.1007/978-981-99-9521-9_34.

5. Осипова Т.А., Зайцев К.С., Биферт В.О. Применение алгоритмов машинного обучения к задаче выявления мошенничества при использовании пластиковых карт. International Journal of Open Information Technologies. 2021, т. 9, № 8, c. 23–29. – EDN: QIIHOL.

6. Alfaiz, Noor & Fati, Suliman. (2022). Enhanced Credit Card Fraud Detection Model Using Machine Learning. Electronics. 11. 662. DOI: 10.3390/electronics11040662.

7. Salekshahrezaee, Z., Leevy, J.L. & Khoshgoftaar, T.M. The effect of feature extraction and data sampling on credit card fraud detection. J Big Data 10, 6 (2023).
DOI: https://doi.org/10.1186/s40537-023-00684-w.

8. Shamsudin, Haziqah & Yusof, Umi & Jayalakshmi, Andal & Khalid, mohd nor akmal. (2020). Combining oversampling and undersampling techniques for imbalanced classification: A comparative study using credit card fraudulent transaction dataset. IEEE 16th International Conference on Control & Automation (ICCA). 2022. DOI: 10.1109/ICCA51439.2020.9264517.

9. Alarfaj, Fawaz & Malik, Iqra & Khan, Hikmat & Almusallam, Naif & Ramzan, Muhammad. (2022). Credit Card Fraud Detection Using State-of-the-Art Machine Learning and Deep Learning Algorithms. IEEE Access. 2022. 10. 1-1. DOI: 10.1109/ACCESS.2022.3166891.

10. Nguyen, Thanh & Tahir, Hammad & Abdelrazek, Mohamed & Ali Babar, Muhammad. (2020). Deep Learning Methods for Credit Card Fraud Detection.
DOI: https://doi.org/10.48550/arXiv.2012.03754.

11. Mienye I.D. and Jere N. Deep Learning for Credit Card Fraud Detection: A Review of Algorithms, Challenges, and Solutions. IEEE Access, v. 12, p. 96893–96910, 2024.
DOI: 10.1109/ACCESS.2024.3426955.

12. Hancock, J.T., Khoshgoftaar, T.M. & Johnson, J.M. Evaluating classifier performance with highly imbalanced Big Data. J Big Data 10, 42 (2023). DOI: https://doi.org/10.1186/s40537-023-00724-5.

13. Li, Zewen & Liu, Fan & Yang, Wenjie & Peng, Shouheng & Zhou, Jun. (2021). A Survey of Convolutional Neural Networks: Analysis, Applications, and Prospects. IEEE Transactions on Neural Networks and Learning Systems. P. 1–21. DOI:10.1109/TNNLS.2021.3084827.

14. Buturovic, Ljubomir & Miljkovic, Dejan. (2020). A novel method for classification of tabular data using convolutional neural networks. DOI: 10.1101/2020.05.02.074203.

15. King, Gary & Zeng, Langche. (2001). Logistic Regression in Rare Events Data. Political Analysis. Political Analysis. 2001, v. 9, Issue 2, p. 137–163. DOI: 10.1093/oxfordjournals.pan.a004868.




DOI: http://dx.doi.org/10.26583/bit.2025.2.08

Ссылки

  • На текущий момент ссылки отсутствуют.


Лицензия Creative Commons
Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.