Обложка статьи

Большие данные следят за тобой

Команда Университета ИТМО под руководством профессора физики Варшавского технологического университета Януша Холыста разрабатывает облачную программную платформу для принятия финансовых решений. О том, как она будет подсказывать банкам, кому выдавать кредит, а обычному пользователю — когда брать ипотеку или покупать валюту, читателям NewTone рассказывают Януш Холыст и ключевой сотрудник проекта Клавдия Боченина. 

NT: Ваш проект называется «Интеллектуальные технологии больших данных для поддержки принятия решений в финансовой сфере на основе предсказательного моделирования». Как бы вы описали людям, далеким от вашей деятельности, чем вы занимаетесь?
К.Б.: Проект состоит из двух частей: теоретической и практической. Первая выполняется за счет финансовой поддержки Российского научного фонда. А вторая — за счет поддержки нашего индустриального партнера — Банк «Санкт-Петербург».
Мы выполняем полный цикл работ по созданию продукта. Мы объясняем системе, как хранить, собирать и преобразовывать данные. Затем на этих данных можно обучать и комбинировать модели, чтобы рассматривать финансовую систему как глобальный объект. Результатом этой работы станет облачная платформа, в которую мы интегрируем разработанные методы, модели и алгоритмы. Эта система даст возможность модельерам (так мы между собой называем ученых, исследующих модели), аналитикам, предметным специалистам обрабатывать большие массивы финансовых данных и выявлять в них важные взаимосвязи.

NT: Какой результат будет выдавать система? 
Я.Х.: Наша задача — создать платформу, которая будет анализировать поведение клиентов, расскажет, кому верить, а кому — нет. Математики и физики описывают поведение людей с помощью формул. Специалисты науки о данных собирают нужную информацию и помещают ее в модели. На основе обработанных сведений наша система порекомендует банку одобрить клиенту кредит или нет. Рекомендации можно получать в числовом виде. Например, платформа скажет, какова вероятность, что клиент выплатит ипотеку. Или предоставит другую информацию: есть ли у него машина, постоянная работа, родственники, которые могут поддержать финансово.

NT: Как будет работать платформа для простых пользователей, не банков?
К.Б.: Публичная облачная платформа будет обрабатывать открытые источники и позволит создать набор разделяемых данных — так называемое озеро данных. Для построения моделей финансовых процессов на их основе мы можем использовать несколько подходов. Например, обучить нейросеть или построить интерпретируемую модель «белого ящика», которая покажет, на основе чего делаются те или иные выводы. После этого мы связываем модели в иерархию, используя при этом агрегирование данных об объектах финансовой среды. Так, сначала строится модель поведения отдельного клиента, а затем — модель предсказания оттоков клиентов финансового учреждения. Для конечного пользователя эти модели будут представлены в виде набора прикладных сервисов. Системой сможет пользоваться человек, который хочет сравнить финансовые инструменты, например карты с кешбэком.

NT: Почему вы использовали облачную платформу?
К.Б.: Она позволяет скрыть от конечного пользователя детали работы вычислительной инфраструктуры, которые ему не нужны. Человек вводит данные и получает обработанный результат. А выбор ресурсов, на которых производятся вычисления и планирование расчетов, обеспечивает сама платформа. Кроме того, с ее помощью можно совмещать разнородные ресурсы, которые часто требуются для работы сложных моделей, — от графических ускорителей до суперкомпьютеров. 

NT: Чем отличается ваша платформа от других? 
К.Б.: Сложные системы, в том числе финансовые, не статичны. Для их исследования нужно не только собирать новые данные, но и учитывать, как меняется структура систем и правила их функционирования с течением времени. Мы не только фиксируем текущее состояние и комбинируем готовые модели, но и описываем эволюцию финансовых систем. Это помогает предсказать пути развития сектора. Например, что будет, если завтра правительство разрешит использовать криптовалюты? Такого форсайтного моделирования на рынке еще нет. 
Я.Х.: Для обычных людей это означает, что можно получить кредит на более выгодных условиях. Например, человек хочет взять ипотеку: система ему подскажет, когда это лучше сделать и в какой момент ставки могут упасть. Или предложит взять кредит прямо сейчас, потому что в дальнейшем ожидается только рост. 

NT: Что такое предсказательное моделирование?
Я.Х.: Предсказательное моделирование используют, чтобы предложить какие-то надежные прогнозы или подсказки на будущее, например каким будет отношение рубля к евро. Такой прогноз может задействовать разные данные: макроэкономические параметры, временные ряды финансовых показателей, описание стратегий поведения ключевых игроков рынка. В результате система может, например, посоветовать покупать евро в апреле каждого года.

NT: Как система подстроится под последующие изменения?
К.Б.: Мы рассматриваем моделирование потенциально возможных сценариев. Например, эксперт предполагает, что когда-то появится новый финансовый институт, уменьшится роль регулятора или он вообще исчезнет. В таком случае нужно начать с описания прогнозного сценария. Затем определить, какие сущности финансовой системы останутся инвариантными — будут действовать в течение всего периода моделирования. Например, сущность «клиент» останется в любом случае независимо от того, будут разрешены криптовалюты или нет. Как изменяется роль других институтов, мы можем описать математически. Изменяя структуру и компоненты иерархической многомасштабной модели в соответствии с нашим прогнозом, мы можем смоделировать сценарии, которых еще не существует. 

ЛИКБЕЗ

Технологическая песочница — среда для безопасного исполнения компьютерных программ, в которую входят жестко контролируемые наборы ресурсов для их исполнения. 
Кредитный скоринг — система оценки кредитоспособности человека, которая основывается на численных статистических методах.
Инвариант — величина или выражение, которое остается неизменным при любых обстоятельствах.
Киберпространство — виртуальное пространство, которое хранит «цифровой след» человека, например его активность в социальных сетях, показатели GPS-трекеров и фитнес-браслетов. 

NT: Какие данные используются для моделирования таких сценариев? 
К.Б.: Наши модели комбинируют слабоструктурированные данные из различных источников: макроэкономические характеристики, статистическую информацию, данные киберпространства. Даже с помощью одних только социальных сетей мы можем в какой-то степени восстанавливать финансовое поведение. Прелесть моделирования в том, что для проверки гипотезы о доходности финансового сервиса нам необязательно тратить большие деньги и реализовывать стартап. Вместо этого можно построить математическую, а затем компьютерную модель его функционирования, дополнить ее рисковой моделью, после чего изучать, как система будет реагировать на различные изменения по задаваемым параметрам.

NT: Где вы получаете данные и как организована работа с ними? 
Я.Х.: При использовании данных в первую очередь необходимо учитывать этические моменты законодательства. Так, персональные данные клиента нельзя передавать третьим лицам, потому что их можно использовать во вред. В то же время, чтобы строить модели, нам нужно использовать большое количество данных, включая миллионы транзакций отдельных людей. Сейчас мы находимся на том этапе проекта, когда главная задача — обеспечить сохранность, целостность и безопасность данных, которые наш партнер передаст университету. Для этого используют методы обезличивания персональных данных, над чем работает группа специалистов из банка и вуза. 
К.Б.: Для работы с финансовыми данными мы разворачиваем в контуре банка «Санкт-Петербург» специальную технологическую песочницу. Она сконструирована таким образом, что мы можем запускать в ней те модели, которые мы разрабатываем. Но к ней нет доступа извне. Песочница спроектирована таким образом, что мы имеем возможность сочетать финансовые данные о транзакциях с данными из киберпространства без раскрытия персональной анонимности клиентов. 

NT: На каком этапе находится проект? 
К.Б.: Сейчас в рамках совместной работы с банком мы запускаем первую версию технологической песочницы, решаем задачи кредитного скоринга и исследуем активность пользователей в киберпространстве. 
Помимо этого, мы разрабатываем математическую модель иерархической многомасштабной финансовой среды. С помощью формул описываем те инварианты и закон эволюции финансовой системы, которые будем впоследствии конкретизировать для прогнозных задач. Другие важные направления — это инфологическое моделирование и развитие теоретических основ создания масштабируемых алгоритмов машинного обучения.


Материал опубликован в журнале NewTone

27 марта 2018

Еще почитать по теме