Структурное подразделение: Международная лаборатория математических методов исследования социальных сетей (Трусов А.В.)

Руководитель работ: Трусов Александр Васильевич - к.ф-м.н., зав. Международной лабораторией математических методов исследования социальных сетей ИПЭИ

Сроки выполнения: 2018 год

Актуальность исследования: Существуют огромные коллекции текстов на естественных языках, которые могут быть использованы для извлечения информации автоматизированными способами с учетом межтекстовых связей, определения тональности и стилистики текстов, их структурных характеристик. Результаты автоматизированного анализа позволяют сократить время на поиск необходимой информации, оценивать полноту выборки и, таким образом, повысить качество принимаемых решений. Социально-семантический анализ текстов предполагает включение в область анализа не только непосредственно текстов, но и их источников, авторов, принятых по текстам решений.

Основная цель исследования: В рамках общего подхода к разработке эффективных масштабируемых алгоритмов социально-семантического анализа текстов необходимо создать алгоритмы для специфических задач, в частности для построения тезаурусов областей знаний и для сравнения структурных моделей одного объекта, но построенных на основе разных наборов текстов, отражающих различные аспекты этого объекта.

Основные фундаментальные и прикладные задачи, решаемые в рамках исследования: Разработать алгоритмы и на их основе технологию построения тезауруса области знания по набору текстов на естественном языке, включающую построение словника, проверку словника на полноту, построение структуры классов тезауруса. Алгоритм для выгрузки коллекции текстов. Алгоритмы построения сети терминов и выделения важных терминов (центральность по собственным векторам, выделение k-ядра). Алгоритм построения классов тезауруса. Разработать алгоритмы и технологию построения и сравнения описаний области профессиональной деятельности выпускника программы высшего образования, на основе профессиональных стандартов, образовательных программ, актуальных научных публикаций. Алгоритм сравнения сетей терминов.