В РАНХиГС прошел онлайн-семинар по компьютерной лингвистике

19 октября 2020 года Лаборатория анализа данных и отраслевой динамики Центра исследований отраслевых рынков ИПЭИ РАНХиГС провела научно-практический онлайн-семинар на тему «Возможности и вызовы в задачах извлечения сущностей, отношений и значений слов в эпоху трансформеров».

На вебинаре Арефьев Николай Викторович, младший научный сотрудник МГУ и сотрудник Samsung R&D Institute Russia рассказал о нейросетевой языковой модели BERT и её применении в соревновании SemEval-2019 Task 2: Unsupervised Lexical Frame Induction, где команда Николая Викторовича заняла первое место. Задача Unsupervised Lexical Frame Induction (извлечение лексический фреймов без учителя) заключается в кластеризации значений многозначных слов. Успешное решение данной задачи может быть полезно в голосовых помощниках для определения намерений пользователей и других задачах, связанных с полисемичностью слов. В ходе доклада Арефьев Н.В. подробно разобрал алгоритм предобучения языковой модели BERT и раскрыл свой подход к решению проблемы. Для решения задачи Арефьев Н.В. прибегнул к двухступенчатому подходу: на первом этапе они использовали модель BERT для получения векторных представлений слов. Затем для кластеризации данных векторов команда разработала оригинальный метод агломеративной кластеризации с частичным привлечением учителя. На следующем этапе строили разреженные представления слов (в противовес плотным векторам из BERT) и кластеризовали их с использованием обычной агломеративной кластеризации и метода "силуэтов".

Второй докладчик Гордеев Денис Игоревич, к.филол.н., научный сотрудник Центра исследований отраслевых рынков Лаборатории анализа данных и отраслевой динамики ИПЭИ РАНХиГС, представил обзор исследований по системам выделения именованных сущностей и отношений между ними. В ходе доклада был сделан краткий обзор современных методов в области автоматического распознавания естественного языка. Были рассмотрены последние достижения в методах распознавания именованных сущностей. Особенное внимание привлекает представление задач распознавание сущностей и отношений не как классификационных задач, а задач понимания языка (reading comprehension). Как ни парадоксально, это позволяет улучшить результаты на датасетах TACRED и SemEval Task 8, что было продемонстрировано работой Relation Extraction as Two-way Span-Prediction (https://arxiv.org/pdf/2010.04829v1.pdf). Кроме того, Гордеев Д.И. рассказал о научных работах ЛАДИОД и успешном участии в соревнованиях FNP 2020 FinCausal по выделению финансовых событий и связей между ними, а также соревновании RuREBus по извлечению сущностей из текстов Минэкономразвития и нахождению связей между ними (1ое место на дорожке по выделению сущностей с результатом в 0.561 F1). Подход на всех соревнованиях заключался в создании единой модели, основанной на Трансформерах, с двумя выходами для задач выделения сущностей и отношений.