11.11.2019
NLP in Social Media Listening
Автоматическая обработка текстов для анализа социальных медиа.
Прослушивание социальных медиа, или social media listening — одна из популярных областей применения технологий NLP. Это трехступенчатый процесс, который состоит из
  1. мониторинга соцмедиа (social media monitoring), т.е. поиска упоминаний названия компании, бренда, продукта и других релевантных для конкретного бизнеса ключевых слов;
  2. семантического анализа собранных данных;
  3. применения полученных выводов на практике.
Вот как этот процесс схематически представлен в книге «Natural Language Processing for Social Media», которая уже успела выдержать два издания.
Главное, что отличает прослушивание соцмедиа от мониторинга и простой аналитики — это переход от количественных метрик вроде коэффициента вовлеченности (engagement rate) к анализу семантики и тональности высказываний. Из формулировки задачи следует, что в прослушивание социальных сетей полностью строится на обработке текста, поэтому неудивительно, что последние 7-8 лет на крупнейших конференциях по компьютерной лингвистике и анализу данных проводятся воркшопы по NLP для соцмедиа. Так, в 2019 г. в седьмой раз прошел SocialNLP, который в разные годы был частью ACL, EACL, IEEE, WWW и IJCAI, а в 2013 и 2014 гг. при конференции NAACL HLT проходил воркшоп LASM (Language Analysis for Social Media).

В понятие «соцмедиа» входят не только социальные сети (Вконтакте, Facebook, Twitter, Tumblr, Instagram), но и различные форумы, имиджборды, блоги, вики (Wikitravel, Wikihow, Lurkmore) и социальные новости (Reddit, Пикабу). Можно выделить три основных маркетинговых задачи, для решения которых используется лингвистический анализ данных с этих площадок.
1. Определение инсайтов

Тенденция перехода к клиентоориентированной модели бизнеса заставляет компании тщательно изучать поведение, предпочтения и потребности пользователей. Для получения инсайтов из отзывов клиентов о компании / сервисе / продукте используются, главным образом, технологии анализа тональности, извлечения информации и суммаризации.

2. Оценка проведенных кампаний

После завершения какой-либо маркетинговой кампании необходимо оценить ее успешность. Эту задачу можно решить, проанализировав изменение тональности в комментариях, касающихся не только самой акции, но и компании / бренда в целом, что позволит лучше планировать будущие компании и программы лояльности.

3. Мониторинг бренда

Мониторинг здоровья бренда и анализ репутационных рисков — одна из базовых задач для любой компании. Анализ данных соцмедиа позволяет предсказывать благоприятные и неблагоприятные инфоповоды для СМИ и предотвращать последние. Если что-то будет угрожать репутации компании, социальные сети отреагируют на это первыми.
На первый взгляд может показаться, что эти задачи достаточно тривиальны, однако анализ данных соцмедиа представляет немало трудностей. В первую очередь, они связаны с особенностями языка социальных сетей: опечатками, сокращениями, сленгом, переключением с одного языка на другой, отрывочными предложениями и просто неграмотной речью. Стандартные модели, натренированные на литературе или новостях, не справятся с такими данными даже после предобработки. Популярным решением этой проблемы является обучение непосредственно на данных соцмедиа: например, среди готовых моделей эмбеддингов GloVe есть модель, натренированная на 2 млрд твитов. Интересным развитием этой идеи стало обучение персонализированных эмбеддингов, отражающих язык конкретного пользователя; статья об этом была опубликована в 2017 г. в сборнике конференции IJCAI. В августе 2019 г. Facebook представил модель fastText, устойчивую к опечаткам.

Вторая серьезная проблема, с которой приходится столкнуться при анализе данных соцмедиа — особенно если речь об анализе тональности — это ирония и сарказм. Задаче определения иронии и сарказма в тексте посвящены несколько соревнований (например, одно из заданий на SemEval-2018) и десятки статей. Многие из них предлагают применять упомянутые выше «пользовательские эмбеддинги»: например, «Modelling Context with User Embeddings for Sarcasm Detection in Social Media» (CONLL 2016), «СASCADE: Contextual Sarcasm Detection in Online Discussion Forums» (COLING 2018) и «Representing Social Media Users for Sarcasm Detection» (EMNLP 2018).

Третья проблема — огромное количество «мусорных» данных, которые необходимо отсеять, чтобы выделить только релевантные высказывания живых людей. Фильтрация автоматически сгенерированного контента, или, проще говоря, распознавание ботов, также стала популярной темой исследований в последние годы. В качестве примера можно назвать вышедшую в 2018 г. в журнале «Information Sciences» статью «Deep Neural Networks for Bot Detection».

И, наконец, последняя глобальная проблема — необходимость быстро в реальном времени обрабатывать большой поток неструктурированных данных, что технически непросто.

Во втором выпуске аналитического альманаха «Искусственный интеллект», который издает МФТИ, были опубликованы рейтинги российских и зарубежных компаний, занимающихся обработкой естественного языка в различных отраслях. Вот как выглядят списки самых успешных компаний в области анализа тональности и извлечения информации из текста по результатам экспертного опроса, проведенного авторами сборника.
Анализ тональности
Поиск и извлечение информации из текста
В сентябре 2019 г. в Москве прошла первая бизнес-конференция по Social Media Listening, организованная компанией YouScan, которая (наряду с BrandAnalytics, «Крибрум» «Медиалогией») является одним из ключевых игроков на российском рынке анализа данных соцмедиа, если не считать гигантов вроде «Яндекса» и ABBYY.

Поскольку вовлеченность компаний и их клиентов в интернет-пространство неукоснительно растет, совершенствование NLP-технологий для анализа соцмедиа еще долго не потеряет актуальность.

Оксана Дереза