Об одном подходе к решению задачи токенизации при анализе больших массивов пользовательских паролей
Аннотация
Проведен анализ алгоритма выделения в паролях пользователей слов на естественных языках (токенизации), предложенного ранее в работе R. Verasetal [1] (RV-алгоритм). Выявлены основные недостатки данного подхода. Предложен новый алгоритм токенизации (RGramToken) на основе частотных словарей слов, биграмм и триграмм, позволяющий лучше учесть информацию о вероятности использования слов и словосочетаний в естественном языке. Подготовлены тестовые выборки фраз с учетом возможных искажений типа «вставка» между словами естественного языка. Проведен сравнительный анализ результатов работы на тестовых и реальных выборках алгоритма RGramToken с RV-алгоритмом. Показаны более высокое качество токенизации предложенным в работе алгоритмом на искаженных фразах, а также устойчивость к качеству используемых словарей.
Ключевые слова
Полный текст:
PDFЛитература
1. Veras R., Collins С., Thorpe J. On the Semantic Patterns of Passwords and their Security Impact // NDSS. 2014.
2. Wang D., Jian G., Wang P. Zipf s Law in Passwords // IACR Cryptology ePrint Archive. 2014. T. 2014. C. 631.
3. Тюрин К.А., Сёмин P.B. Анализ стойкости парольных фраз на основе информационной энтропии // Известия Южного федерального университета. Технические науки. 2015. № 5 (166). С. 18-27.
4. Марков Г.А. К вопросу об определении стойкости парольных систем // Сборник трудов Третьей всероссийской НТК «Безопасные информационные технологии». М.: НИИ РЛ МГТУ им. Н.Э. Баумана. 2012. С. 21-23.
5. Weir М., Aggarwal S., De Medeiros В., Glodek В. Password cracking using probabilistic context-free grammars // 2009 IEEE Symposium on Security and Privacy. - IEEE. 2009. C. 391-405.
6. Houshmad S., Aggarwal S., Flood R. Next Gen PCFG Password Cracking // IEEE, 2015. C. 1776-1791.
7. Yazdi Sh. Probabilistic Context-Free Grammar Based Password Cracking: Attack, Defence and Application // FSU Libraries. 2015.
8. Van Heerden R.P., Vorster J.S. Using Markov Models to crack passwords // The 3rd International Conference on Information Warfare and Security: Peter Kiewit Institute, University of Nebraska, Omaha, USA. 2008. C. 24-25.
9. Ma J., Yang W., Luo M., Li N. A Study of Probabilistic Password Models // 2014 IEEE Symposium on Security and Privacy. IEEE. 2014. C. 689-704.
10. Duermuth M., Angelstorf F., Castellucia C., Perito D., Chaabane A. OMEN: Faster Password Guessing Using an Ordered Markov Enumerator // International Symposium on Engeneering Secure Software and Systems. 2015. C. 119-132.
11. Grefenstette G., Tapanainen P. What is a word, What is a sentence? Problems of Tokenization // Proceedings of the 3rd Conference on Computational Lexicography and Text Research, COMPLEX’94. 1994. C. 79-87.
12. Jurish B., Wurzner K.-M. Word and Sentence Tokenization with Hidden Markov Models // JLCL. 2013. T.28. № 2. C. 61-83.
13. Jakobsson M., Dhiman M. The benefits of understanding passwords // Mobile Authentication, ser. Springer Briefs in Computer Science. - Springer New York. 2013. C. 5-24.
14. ENCOW14. [Электронный ресурс.] - URL: http://corporafromtheweb.org/encowl4/ (дата обращения 30.05.2016).
15. RockYou. [Электронный ресурс.] - URL: http://wiki.skullsecurity.org/Passwords (дата обращения 30.05.2016).
DOI: http://dx.doi.org/10.26583/bit.2017.2.06
Ссылки
- На текущий момент ссылки отсутствуют.

Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.