школа филологии вшэ
Тематическая структура корпуса поэзии stihi.ru
Гуманитарные науки в век Big Data
1
Stihi.ru
Стихи.ру – крупнейший российский литературный портал, предоставляющий авторам возможность свободной публикации произведений.
Для сегодняшнего российского лингвиста-исследователя stihi.ru - еще никем не изученная коллекция текстовых документов, так называемый корпус.

Корпус поэзии содержит произведения более 636 738 авторов или 29 634 269 произведений - объем текстовых документов, с которым способны справиться алгоритмы анализа больших данных.

В нашей статье мы дадим ответ на вопрос: "какова тематическая структура корпуса поэзии stihi.ru?" Иначе говоря, на какие темы аудитория stihi.ru пишет стихи. Замечательно то, что ответ будет получен с помощью модных в наши дни методов анализа и обработки данных - Big Data.



2
Тематическое моделирование и Big Data
Пространство тем
Цель тематического моделирования - построение вероятностной модели, которая определяет, к каким темам относится каждый документ корпуса.

Тема представляет собой коллекцию слов, с весами - вероятностями. Если документ содержит слова, характерные для какой-нибудь темы, значит, с некоторой долей вероятности, он принадлежит этой теме.

Современные алгоритмы тематического моделирования - LDA, hLDA - устойчивы к большим объемам входных данных. Уже сегодня они используются поисковыми гигантами, чтобы, например, показывать нам релевантную контекстную рекламу и автоматически анализировать наше мнение о чем угодно в социальных сетях.

3
Тематическое моделирование и Digital Humanities
Нужно отметить, что поэтические тексты изобилуют образным языком. Как показывает исследование специалиста в области Digital Humanities Лизы Роди, анализ и интерпретация тем, полученных методом LDA на корпусе поэтических текстов, может отличаться от анализа тематических моделей коллекций документов со слабой художественной составлющей.


В нашем исследовании, мы применяем хорошо знакомые для компьютерных лингвистов методы морфологической нормализации, что позволило нам получить тематическую модель, похожую на классические модели, построенные на нехудожественных текстах.
4
Эксперимент
Эксперименты по анализу корпуса поэзии показали, что в нем присутствует устойчивый набор тем. Мы специально не даем названия этим темам в виду того, что русскоязычный читатель с легкостью их угадает.
устойчивые темы, извлеченные из корпуса поэзии




Данное исследование выполнено в рамках проекта в области Digital Humanities Школы Филологии ВШЭ студентом 1 курса магистратуры Сильвестровым А.С. под руководством к.л.н., с.н.с Бонч-Осмоловской А.А.







Материал подготовлен к защите проекта по курсу "Инфографика"
Алексей Сильвестров
Made on
Tilda