21.10.2019
NLP в образовательных технологиях
Образовательные технологии, или EdTech – одно из самых стремительно развивающихся направлений в IT-секторе.
Согласно отчету компании Technavio, только в 2017 г. суммарный доход EdTech в мире составил более $17 млрд, а к 2022 г. эта цифра вырастет до $271 млрд.
В широком смысле, EdTech – это использование технологий в образовательном процессе, направленное на упрощение, индивидуализацию и повышение увлекательности обучения. Сюда входят и MOOC-платформы, и приложения для изучения иностранных языков, и системы для автоматической генерации учебных материалов и проверки заданий, и технологии администрирования учебного процесса. Неудивительно, что в EdTech есть много NLP-задач, т.е. задач по обработке естественного языка.

История применения NLP в образовательных технологиях началась еще в 1960-е с автоматической оценки студенческих сочинений. В 1990-е возник интерес к использованию диалоговых систем в обучающих целях, а в 2003 г. в рамках NAACL, одной из крупнейших конференций по компьютерной лингвистике, стали регулярно проводиться семинары по «Инновационному использованию NLP в разработке образовательных приложений». В 2006 г. внутри Международной ассоциации по речевой коммуникации (ISCA) была создана рабочая группа «Речевые и языковые технологии в образовании» (SLaTE). В последние годы в соревнованиях по машинному обучению все чаще появляются задачи из области EdTech: автоматическая оценка сочинений и кратких ответов на вопросы, исправление грамматических ошибок, решение ЕГЭ по русскому языку (включая как тест, так и эссе).

Исследовательница Диана Литман выделяет три глобальных задачи, которые решаются в EdTech с помощью NLP:

  1. непосредственно обучение языку (как родному, так и иностранному);

  2. использование языка как инструмента преподавания и коммуникации в рамках учебного процесса;

  3. анализ текстовых данных для различных нужд преподавателей, учащихся и исследователей.
Обучение языку

Одно из самых ранних, и при этом все еще актуальных применений NLP в образовании – оценка письменной и устной речи учащегося.

Синтаксический анализ приходит на помощь, когда необходимо найти и исправить ошибки в употреблении предлогов или в согласовании, а анализ семантики и дискурса позволяет приблизить автоматическую проверку сочинений к «человеческой», оценив степень семантической близости текста к модельному ответу и измерив его связность. Вот лишь несколько приложений, специализирующихся на исправлении ошибок и оценке текста, от орфографии и пунктуации до качества аргументации:

Кроме того, важную роль в оценке письменных работ играет выявление плагиата. Эта задача полностью автоматизирована во многих университетах в России и за рубежом: наверняка, все слышали про систему «Антиплагиат». Существует также множество открытых сервисов для самостоятельной проверки текста на плагиат, например, Quetext или Plagiarism Checker от Grammarly.

Сейчас разработка в сфере автоматической оценки языковых компетенций движется в сторону создания специализированных методов проверки для разных типов заданий (краткое изложение, рассказ по картинкам, эссе-рассуждение) и обработки «шума» (специфические ошибки, акцент) в ответах иностранных учащихся.
Язык как средство обучения

Любой естественный язык может быть не только предметом, но и средством обучения. Исследователь Курт Ванлен показал, что индивидуальные занятия с учителем — наиболее эффективная форма работы по сравнению с обучением в группах и на компьютере, и предположил, что это обусловлено постоянным диалогом между учителем и учеником. Если эта гипотеза верна, то развитие диалоговых систем может поспособствовать прорыву в образовании. Уже сейчас чат-боты и голосовые помощники активно используются в преподавании; их часто называют «интеллектуальными обучающими системами», или ITS (Intelligent Tutoring Systems). Вот лишь несколько примеров таких систем:

Анализ и генерация текста

В третью группу задач, для решения которых в EdTech часто используется NLP, входит, в первую очередь, генерация типовых заданий и тестовых материалов. Наверное, все помнят задачки по математике про пункт А и пункт Б, где меняются только цифры и схема движения героев, а шаблон остается неизменным? Или упражнения в учебниках иностранного языка, где нужно поставить глагол в нужное время в 20 похожих предложениях? Такие материалы несложно сгенерировать автоматически: для этого понадобится морфологический и синтаксический анализатор и предобученная модель эмбеддингов.

Поскольку одним из трендов EdTech является персонализация обучения, еще одной важной задачей становится адаптация материалов под конкретного учащегося. Например, при обучении иностранному языку это может быть упрощение исходного текста в соответствии с заданным уровнем сложности, или, например, подбор текстов по темам, интересным ученику. Не можете больше видеть темы «Recycling» и «London is the capital of Great Britain» и хотите изучать present simple, читая про жизнь морских котиков? Легко!

Наконец, NLP может помочь преподавателям анализировать вопросы и отзывы учащихся. Например, в случае MOOC с тысячами слушателей преподаватель физически не может прочитать все сообщения на форуме курса, но построив их тематическую модель, он получит представление о том, что вызвало больше всего сложностей.

Даже беглый взгляд на программу ведущих конференций в области образовательных технологий, таких как EdCrunch, дает понять, что будущее образования за адаптивным обучением. Эта методика, основанная на анализе данных, позволяет индивидуально подстраивать программу под каждого студента в реальном времени. Стартапы, разрабатывающие платформы для адаптивного обучения привлекают в свой штат ведущих специалистов по анализу данных. Так, главой исследований в области искусственного интеллекта в китайской компании SquirrelAI, основанной всего лишь 5 лет назад, недавно стал Том Митчелл, бывший декан факультета компьютерных наук университета Карнеги Меллон.

Как пишет Чарли Харрингтон, глава лондонского офиса компании Knewton:

«Представьте, что учитель может с помощью пары кликов мышкой оценить индивидуальные знания студента по своему предмету в любой момент времени. Это поможет учителям легко и быстро идентифицировать темы, в которых пробел в знаниях только начинает возникать и изменить процесс обучения таким образом, чтобы ликвидировать этот пробел. У учителей останется больше времени делать то, что получается у них лучше всего — вдохновлять и учить».

Оксана Дереза