28.10.2019
NLP в финансовых технологиях
Финансовые технологии, или FinTech, традиционно один из лидеров в прикладном машинном обучении.
Сфера финансов — это одна из первых областей, где стали активно применяться передовые технологии и инновации. Зарождением финтеха (от англ. FinTech) в широком смысле можно считать появление кредитных карт в 1950-е и банкоматов в 1960-е, а с распространением интернета и электронной коммерции в 1990-е, финансовые технологии вышли на новый этап развития.
Сейчас FinTech - это отрасль с миллиардными оборотами, которая считается катализатором исследований в области искусственного интеллекта. Часто, первые ассоциации со словосочетанием "финансовые технологии" — это майнинг криптовалют или интернет-банкинг. На самом деле, финансовые технологии включают очень широкий спектр задач: от анализа движения рынка акций до прогнозирования инвестиционных рисков по отзывам о компании, от голосовых помощников в мобильных приложениях банков до автозаполнения юридических документов. Около 80% данных, необходимых для решения этих задач, приходится на так называемые неструктурированные данные: посты в соцсетях, e-mail'ы, и документы. Это значит, что для их решения требуется анализ текста и NLP. Достаточно беглого взгляда на академический обзор применения text mining в сфере финансов или соответствующую подборку научных статей, чтобы оценить важность NLP для финтеха. Например, банки используют технологии обработки и понимания естественного языка, а также распознавания и синтеза речи: голосовые меню, чат-боты для консультаций, автоматизация обработки обращений, помощники оператора, аудио-идентификация клиента и др. В целом, среди популярных применений NLP в финансовых технологиях можно выделить анализ рынка ценных бумаг, создание виртуальных ассистентов и бизнес-аналитику.
Анализ рынка ценных бумаг и инвестиционных рисков

В последние годы к традиционным методам предсказания движения рынка ценных бумаг добавился анализ финансовых новостей и данных социальных сетей. Финансовый анализ тональности, совместно с агрегацией и суммаризацией отчетов финансовых аналитиков из открытых источников, помогают инвесторам оценить перспективность и финансовую стабильность компании. Использовать анализ тональности твитов для предсказания движения акций предложили еще в 2012 г., а с появлением различных моделей эмбеддингов и развитием глубокого обучения этот метод набрал еще большую популярность. Например, на крупнейшей конференции по компьютерной лингвистике ACL в 2018 г. ученые из университета Эдинбурга представили нейросеть, основанную на архитектуре VAE с механизмом внимания, которая достигала 58% точности предсказаний на данных финансовых новостей и твиттера. В том же году китайские ученые предложили использовать для этой цели архитектуру с комбинацией сверточных и LSTM-слоев.


Среди успешных FinTech-стартапов, специализирующихся на консультировании бизнеса в принятии финансовых решений, можно назвать американский Sigmoidal и швейцарский Sentifi. Обе компании занимаются анализом данных из новостных источников, социальных сетей и блогов и используют извлечение именованных сущностей (NER), анализ тональности, классификацию документов и извлечение фактов для помощи банкам и инвестиционным фирмам. Кроме того, Sentifi с помощью анализа новостей и соцмедиа предлагает компаниям определять релевантных для них финансовых инфлюэнсеров. Другой пример — рекомендательный сервис по инвестиционным вложениям TipRanks, который также собирает для своих клиентов информацию об акциях различных компаний, опубликованную в сети аналитиками и блогерами.


Сюда же можно отнести и продвинутый кредитный скоринг. Сингапурская компания LenddoEFL специализируется на оценке кредитоспособности клиентов банков в развивающихся странах. Особенность этой задачи в том, что у представителей сравнительно недавно появившегося в этих странах среднего класса часто нет кредитной истории, поэтому LenddoEFL использует вместо нее "цифровые отпечатки" клиентов, анализируя их социальные сети, историю поиска и геолокацию.
Чат-боты и виртуальные ассистенты

Мобильный и интернет-банкинг постепенно заменяют традиционные банковские отделения. Клиенты все чаще общаются с виртуальными помощниками — как текстовыми, так и голосовыми. Последние предоставляют информацию по услугам банка и отвечают на типичные вопросы, разгружая техподдержку и колл-центры, а также дают персональные рекомендации по расходам и сбережениям, анализируя доходы и траты пользователя. Для создания любого чат-бота необходимо уметь решать такие NLP-задачи, как распознавание интента и генерация грамматически правильного текста, а чтобы сделать систему предметно-ориентированной, потребуются онтологии. В силу специфичности задачи, в посвященных именно банковским чат-ботам научных статьях, как правило, описывается опыт конкретных регионов — например, Германии или Шри-Ланки.

В 2018-2019 гг. сфера финансов и страхования занимала первое место по использованию чат-ботов. Большинство крупных российских банков начали их внедрять в свои продукты: так, Сбербанк запустил бета-версию собственного чат-бота в феврале 2019, а Тинькофф начал тестировать голосового помощника по имени Олег в июне 2019. В США диалоговых агентов для своих финансовых продуктов разработали, например, Bank of America и JP Morgan Chase. Хорошим примером использования виртуальных помощников в страховании является Ella от канадской компании SunLife, которая помогает клиентам разобраться с пособиями и пенсионными выплатами.

Отдельно стоит отметить чат-ботов, которые позволяют совершать различные финансовые операции, от банковских переводов до покупок в интернет-магазинах, прямо в мессенджере. Самый яркий пример интеграции финансовых технологий в мессенджеры — это китайский WeChat. Есть подобные разработки и в России: например, Talkbank, который работает в Telegram и Viber.

По оценкам компании Just AI, предлагающей корпоративным клиентам платформу для создания чат-ботов и голосовых помощников, объем рынка виртуальных ассистентов с технологией NLU (Natural Language Understanding, "понимание естественного языка") только в России к 2023 г. достигнет 33 млрд. руб. На наш взгляд, такая оценка выглядит слишком оптимистичной, так как текущие темпы роста обусловлены эффектом низкой базы и будут значительно замедляться.
Умный поиск и бизнес-аналитика

С ростом объема внутренней документации банкам и страховым компаниям становится все сложнее в ней ориентироваться; одновременно с этим, все важнее становится предоставить клиенту необходимую информацию максимально быстро, чтобы выдержать конкуренцию. На помощь приходят специализированные поисковые системы, которые "переводят" запрос оператора на естественном языке в SQL-запрос к базе данных и возвращают результат в удобной "человекочитаемой" форме.

Например, американская компания Nuance Communications разработала Nuance Document Finance Solution — специальное программное обеспечение для оцифровки и автоматической обработки документации в сфере финансов. NLP-компонент системы можно обучать на своих данных, что позволяет компаниям получить персонализированный инструмент для извлечения информации из документов и их суммаризации.

Кроме того, многие финансовые компании пользуются специализированными сервисами для сбора и анализа данных в целях бизнес-разведки. Например, стартап AlphaSense из Нью-Йорка, основанный выпускником СПбГУ, предлагает своим клиентам базу данных с поисковым интерфейсом, которая измеряется миллионами документов (от архивов компаний, находящиеся в открытом доступе, до расшифровок переговоров), что позволяет провести разносторонний анализ рынка. В ответ на поисковый запрос пользователь получает краткое содержание документов, которые ему соответствуют. В совместной научной статье 2015 г. инженеры AlphaSense и ExtractAlpha описывают алгоритм анализа справок о доходах и банковских выписок; они утверждают, что такие данные надежнее соцмедиа, хотя и сложнее в обработке.

По прогнозам аналитиков PwC, использование технологий AI — к которым относится, в частности, NLU — останется в топе трендов в финансовых технологиях. FinanceOnline предсказывает, что к 2030 г. это поможет банкам сократить расходы на 22%, что эквивалентно триллиону долларов.

Оксана Дереза