Алгоритм показал эволюцию стиля писателей
Исследователи предложили новый подход к компьютерному изучению авторства и стиля текстов, основанный на моделировании динамического процесса письма. Авторы проанализировали произведения Джона Толкина, Айзека Азимова, Артура Кларка и многих других известных писателей, увидев, каким образом менялся их авторский стиль. Результаты работы сотрудников Санкт-Петербургского государственного университета и их коллег из Израиля опубликованы в журнале Pattern Recognition.
Для исследования математики выбрали известные литературные произведения: цикл из семи научно-фантастических романов Айзека Азимова «Основание», серию Джона Голсуорси «Сага о Форсайтах», все произведения Джона Толкина и другие книги. Интерес для исследователей представляет именно большой массив материалов, который автор создавал на протяжении долгого времени: математические алгоритмы позволяют увидеть, как менялись особенности стиля писателя. В частности, метод достаточно точно определил, что «Хоббит» был написан тем же автором, что и «Властелин колец», а вот «Сильмариллион» заметно отличается по стилю. Это объясняется тем, что книга была издана уже после смерти автора: сборник мифов и легенд Средиземья дорабатывал сын Джона Толкина — Кристофер, который несколько лет изучал черновики отца, созданные на протяжении нескольких десятилетий.
Исходными данными для представленного в статье метода моделирования динамического процесса написания текстов служат не только последовательности символов текста и слова, а еще и последовательности N-грамм (связанных цепочек символов). Например, при N=3 вместо шести символов « мама » компьютерная программа, в частности, выделит в тексте триграммы « ма», «мам», «ама», «ма ». Далее исследуемый документ делится на поддокументы, из которых формируется упорядоченная последовательность появления N-грамм, где ищется зависимость между каждым из полученных таким образом поддокументов и его «соседями». Для этого используются методы, разработанные ранее в теории обработки сигналов, выделяющие частотные характеристики в последовательностях данных. Новый метод определяет своеобразные «частотные характеристики» авторского стиля по аналогии с частотами физических волн, регистрируемых специальными приборами.
«Заметны отличия стиля и в произведениях одного автора, — рассказывает соавтор Наталья Кижаева. — К примеру, четвертую часть из цикла "Основание" Айзек Азимов написал спустя почти 30 лет после того, как была создана третья часть, — на этом настояли его поклонники. Наш метод позволил разделить семь книг серии на два кластера: созданные до 1953 года и после 1982. За 30 лет изменился сам автор, его окружение, его видение жизни и, как следствие, — авторский стиль».
Разработка, как отмечают исследователи, может помочь в анализе не только литературных произведений, но и неструктурированных текстов. Например, метод пригодится при обработке массивов данных, поступающих на диспетчерские пульты или в различные колл-центры по работе с клиентами. Израильские ученые применяют разработку для того, чтобы определять искусственно сгенерированные тексты, написанные не человеком, а машиной. Например, существуют программы, фабрикующие тесты, похожие на настоящие научные статьи, которые нередко принимают для опубликования в известных журналах. Метод позволяет с большей точностью отличать такие статьи от текстов, написанных человеком.
Пресс-релизы о научных исследованиях, информацию о последних вышедших научных статьях и анонсы конференций, а также данные о выигранных грантах и премиях присылайте на адрес science@indicator.ru.