ТЕХНОЛОГИИ
Graph Representation Learning как способ повышения эффективности противодействия мошенничеству Андрей Пинчук, исполнительный директор, начальник Отдела аналитической экспертизы Сбербанка
И В Сбербанке реализована эшелонированная защита всех онлайн-услуг, которая включает в себя ряд защитных механизмов: подтверждение критичных операций одноразовыми паролями, шифрование трафика и др. Одним из ключевых элементов этой защиты является система фрод-мониторинга для выявления и предотвращения мошенничества. В системе фрод-мониторинга Сбербанка используется целый ряд моделей на основе машинного обучения (MLмоделей), направленных на противодействие различным аспектам кибермошенничества – выявление мошеннических транзакций и групп, а также сово-
нтернет и онлайн-услуги проникли во все отрасли нашей жизни. Банковская сфера – не исключение. Через удаленные каналы можно оплатить покупку или открыть вклад, получить кредит без визита в офис банка или совершить перевод через чат-бота в мессенджере. Однако вместе с распространением новых платежных инструментов растет и интерес мошенников к этим сервисам.
купности этих моделей, что позволяет удерживать уровень мошеннических операций на минимальных показателях при постоянном росте транзакционной активности и появлении новых продуктов и услуг. Вместе с тем мы в Сбербанке постоянно ищем пути повышения эффективности фрод-мониторинга, анализируем достижения в различных областях Data Science на предмет их применимости.
характер – затрагивают вершину и ближайшее ее окружение (см. рис. 1). Также расчет эвристик более высоких порядков и длин путей в моделях real-time на объемах банка невозможен (~12 000 транзакций в секунду со временем SLA <100 мс). Поэтому необходим механизм, который позволял бы извлекать информацию из структуры графа автоматически и использовать ее для моделей фрод-мониторинга.
Почему графы?
Машинное обучение на графах
Для банка в целом и для задачи противодействия мошенничеству в частности важно хорошо знать своих клиентов. Наряду с социально-демографическими признаками, оборотами и покупками клиентов не менее важную роль играют финансовые взаимодействия людей. Последнее – не что иное, как граф, где вершинами выступают клиенты (или внешние по отношению к банку реквизиты), а ребра между вершинами – это финансовые транзакции. Используя такой граф, можно получить много важной дополнительной информации для системы фрод-мониторинга. В моделях фрод-мониторинга Сбербанка мы уже давно используем графовые данные, например графовые характеристики вершин и ребер (степени, общее число соседей между вершинами), пути между вершинами и т.д. Однако создание эвристик на графах требует привлечения фрод-аналитиков, что Рис. 1. Популярные эвристики для предсказания является очень затратным возникновения связи в графе (Г(x) – вершины по времени. Обычно эврисоседи)1 стики носят локальный
Зачастую для извлечения структурной информации из графов и передачи в традиционные ML-модели (регрессии, деревья решений и пр.) используется набор статистических данных, описывающих граф, kernel-функции для графов или разработанные аналитиками признаки. Ограничения такого подхода заключаются в том, что разработанные признаки не адаптируются под имеющиеся данные во время обучения, а создание новых признаков требует много времени. В настоящее время разработано множество алгоритмов, направленных на обучение представлений (Representation Learning) графов. Суть Representation Learning – закодировать структурную информацию о графе в пространство меньшей размерности (так называемый embedding), например представить вершины графа или целиком граф (подграфы) как точки в новом графе. При этом цель алгоритма/модели – чтобы в получившемся пространстве геометрические соотношения отражали структуру исходного графа, например близкие вершины в пространстве были также близки (связаны ребром, имели небольшой кратчайший путь) в графе. Ключевое отличие подходов Representation Learning от традиционных состоит в том, что последние самостоя-
. https://www.researchgate.net/publication/318916726_Weisfeiler-Lehman_Neural_Machine_for_Link_Prediction
1
42 •