«Как почти любой компьютерный лингвист, я существо двухголовое»

О семантических сдвигах российского общества

Dialogue/Pixnio/Indicator.Ru

На 26-й международной конференции по компьютерной лингвистике и интеллектуальным технологиям «Диалог», которую компания ABBYY провела в партнерстве с Московским физико-техническим институтом, научный сотрудник Университета Осло Андрей Кутузов представил веб-сервис для поиска семантических сдвигов в русскоязычных новостях ShiftRy. В интервью Indicator.Ru исследователь рассказал, как создавался сервис и что с его помощью можно узнать о развитии русского языка.

Сервис ShiftRy, названный именем покемона Шифтри (англ. shift — «сдвиг»), разработали под руководством Андрея Кутузова студенты магистратуры по компьютерной лингвистике Высшей школы экономики Вадим Фомин, Владислав Михайлов и Юлия Родина. В основе сервиса — тексты новостей десяти российских СМИ с 2010 по 2020 годы и вычислительные модели, которые позволяют оценить, как с течением времени менялись контексты употребления различных слов. Например, можно увидеть, что еще в 2013 году слово «Крым» употреблялось в текстах вместе с названиями курортных городов, а в 2014 году приобрело другое окружение — «Россия», «Украина», «Новороссия».

— Как вы пришли к теме семантических сдвигов?

— Я давно, как минимум с 2013–2014 года, занимаюсь вопросами того, какими способами описать значения слов понятно для компьютеров. Как сделать, условно говоря, чтобы компьютер понимал: слово «телефон» по значению похоже на «сотовый», а «бегемот» — на «гиппопотам». И в какой-то момент меня заинтересовало, можно ли использовать подобные репрезентации слов, чтобы отслеживать, как изменяется значение с течением времени. Если мы можем как-то машиночитаемо представить значение слова в определенный период, можем ли мы сравнить это с его же значением в другой период? Это попытка решения проблемы, которой десятки или даже сотни лет занималась историческая лингвистика: изучение того, как менялось значение слова во времени. Сейчас я пишу PhD-диссертацию на эту тему, и это мой основной научный интерес. Но диссертация и ShiftRy развивались параллельно, в работе сравнивается множество разных методов для автоматического определения семантических сдвигов. Создатели сервиса — скорее Влад, Юля и Вадим, а я им занимался, можно сказать, в свободное от работы время и выступал «тимлидом».

— То, как меняется значение слова во времени, интересно только само по себе? Или это важно с практической точки зрения?

— Традиционные лингвисты, назовем их так, заинтересованы в этом с академической точки зрения. Это действительно крайне интересно, как и почему слова меняют свое значение. Например, почему русское слово «поезд» означало процессию, а стало означать тот поезд, который ездит по рельсам; почему слово «красный» значило «красивый», а стало обозначать цвет; какие виды таких превращений существуют.

С практической точки зрения эта тема оказалась крайне важна, когда информация стала нефтью XXI века. Если вы Google или Яндекс, вы хотите, чтобы ваша выдача по запросу пользователей учитывала новые значения слов. Например, когда у слова «лук» в русском языке появилось значение «картинка, внешний вид», вы хотите, чтобы по запросам с этим словом поисковик выдавал не только овощи или оружие. Любые системы, связанные с извлечением информации из документов, важно автоматически адаптировать к появлению у слов новых значений или к устареванию старых.

— Вы говорите о значениях, а есть ли разница между изменением значения слова и семантическим сдвигом?

— Вокруг этого вопроса уже сломано множество копий и будет сломано еще немало. Проблема в том, что существует много разных пониманий того, что такое семантика слова, что вообще означает «значить». Это даже не лингвистическая, а философская проблема. Но с практической точки зрения едва ли не все современные системы обработки текстов основаны на дистрибутивном подходе к семантике, он же дистрибутивная гипотеза. Он был высказан еще в середине XX века, но практическое применение получил не так давно. Идея в том, что не нужно пытаться искать значение слова в голове у человека, у нас все равно нет никаких экспериментальных способов их там найти. Значение слова — просто сумма контекстов, в которых оно употребляется. Можно перефразировать так: значение — это употребление. С практической точки зрения мы только так и можем обрабатывать язык в больших объемах. Собрать тексты не проблема, у нас есть целый интернет, но вручную их никто не обработает — нельзя же посадить на цепь сто лингвистов, чтобы они круглосуточно искали, какие слова приобрели новое значение или потеряли старое. Нам нужны системы, которые бы автоматически извлекали это знание из больших коллекций текстов. И дистрибутивная гипотеза дает базу для этого. В своей работе мы придерживаемся дистрибутивного подхода: если слово начало употребляться в новых контекстах и рядом с такими словами, где оно не употреблялось раньше, для нас оно изменило и свое значение. Такой сдвиг может совпадать с тем, что лингвисты обычно понимают под изменением значения — когда у слова «поезд» появилось значение, связанное с железной дорогой, и мы записали его в словарь. А может и не совпадать, как я показывал на «Диалоге». У слова «изоляция» в 2020 году явно изменились контексты. Когда мы слышим его сегодня, думаем совсем другое, нежели в 2019 или в 2018 году. И для нас в соответствии с дистрибутивным подходом это уже изменение значения, хотя в словарь, несомненно, никто не записывает новых значений слова «изоляция».

— Сдвиги, которые вы нашли с помощью ShiftRy, — в основном кратковременные изменения или есть и такие новые значения, которые уже могут попасть в словарь? И сколько живет недолговременный сдвиг?

— Они могут быть и кратковременными. Слово может изменить типичные контексты на какое-то время и потом вернуться к исходному состоянию, а может получить новое значение, которое, судя по всему, останется с ним надолго. Пример из первого класса феноменов — слово «болотный». В 2012–2013 годах после протестов на Болотной площади в Москве у него резко изменились типичные контексты употребления. На ShiftRy вы увидите большие семантические сдвиги — оно стало употребляться в контексте митингов, арестов, потом судов и фальсификаций. А начиная с 2018–2019 года видно, как постепенно типичные контексты слова возвращаются к состоянию до 2012 года. Его семантическими ассоциатами снова становятся слова «болотистый», «замшелый» и так далее. Все возвращается на круги своя.

Пример из второго класса — в 2020 году российские СМИ, которые мы анализируем, судя по всему, осознали, что у слова «закладка» есть еще одно значение. До этого оно употреблялось исключительно в контексте строительства: «состоялась закладка нового храма» и тому подобные примеры. Теперь же мы видим резкий всплеск контекстов, в которых оно употребляется в значении «тайник с запрещенными веществами». Понятно, что масс-медиа немного отстают от языка, и это значение появилось на несколько лет раньше. Но теперь оно добралось и до их языка. Прогнозировать сложно, но я пока не вижу причин, почему это значение может исчезнуть. Видно, что распределение частоты значений явно не в пользу «закладки зданий».

— А возможна обратная ситуация, когда СМИ не отстают от языка, а задают новые контексты?

— Это возможно, но масс-медиа редко выступают в качестве единственных источников изменений. Основные причины сдвигов — глубинные социальные, политические, технологические процессы, и масс-медиа их просто отражают. Другое дело, если они выполняют скоординированную функцию пропаганды — в этом случае можно себе представить, как они могут использоваться для наделения слова каким-то новым значением. Но это тема для отдельного исследования. Мы рассматривали масс-медиа как отражение того, что происходит в обществе, пусть и несовершенное. Было бы интересно то же самое сделать на материале общения в социальных сетях, и это было бы даже более репрезентативно по отношению к русскому языку в целом. При общении в соцсетях люди гораздо легче употребляют новые слова. Но, к сожалению, для академического сообщества тексты из соцсетей получить гораздо сложнее, чем из масс-медиа. Это более монополизированная история, владельцы крупных соцсетей менее охотно делятся коллекциями текстов.

— Всегда ли по данным ShiftRy можно проследить, какое событие стоит за сдвигом?

— Конечно, нет. Все усложняется тем, что наша система, естественно, не совершенна. Вы можете, вводя разные слова в сервис, увидеть кейсы, которые не совпадают с вашей лингвистической интуицией. И часть этих кейсов связана с тем, что система ошибается. Задача автоматического детектирования семантических сдвигов не решена, прямо сейчас в глобальной компьютерной лингвистике идет состязание разных групп в том, кто создаст лучшее решение.

С другой стороны, иногда мы можем вспомнить по своему опыту, как в случае с контекстуальными сдвигами слов «болотный» или «Крым», что происходило в эти годы. Но могут быть и слова, для изменения значений которых конкретный исследователь просто не вспомнит никаких экстралингвистических причин. Помогает то, что мы в ShiftRy показываем списки ближайших семантических ассоциатов, и можно увидеть, на какие другие слова это слово было похоже в разные годы. Плюс мы показываем примеры предложений, в которых это слово употреблялось. И все равно очень много слов, которые, по мнению нашего сервиса, сильно изменили значение, но у нас нет интерпретации для этого.

— Как вы работали над сервисом и как он теперь будет развиваться?

— Это была большая работа со студентами-магистрантами ВШЭ в ходе научно-исследовательского семинара. И мне кажется, самым сложным было собрать коллектив исследователей, которые бы смогли сделать этот сервис. Я очень благодарен коллегам — теперь их уже можно так назвать, они только что защитили дипломы. Мы с ними работаем уже второй год, и они имеют большой опыт исследований в области автоматического определения изменений слов во времени. Но тем не менее даже в такой команде задача отняла много времени.

Вначале нужно было заполучить сами тексты с новостных сайтов. Часто это тоже нетривиальная задача: могут существовать препятствия для выкачки текстов, или же просто у сайтов странная разметка, которая требует создания специальных инструментов. Мы писали довольно много кода для выкачки. Потом нужно было найти правильные решения, чтобы из горы текстовых файлов получить чистую коллекцию лингвистических данных. Это включало в себя разбиение текстов на слова, превращение слов в их начальные формы. Для всего нужны соответствующие алгоритмы, и они тоже работают неидеально — сейчас в ShiftRy можно увидеть слова в неправильных формах или вообще несуществующие. Вся эта кажущаяся рутинной компьютерно-лингвистическая работа заняла много времени. Затем нужно было обучить диахронические модели, представить слова в их машиночитаемой интерпретации. Здесь использовались уже хорошо себя зарекомендовавшие методы, тут мы не придумывали ничего особо нового. Когда были готовы модели, огромная работа также была проделана в плане создания самого веб-сервиса. К сожалению, очень часто в академии, в отличие от индустрии, работа заканчивается на том, что мы что-то сделали, написали статью, опубликовали, сделали доклад, ответили на вопросы за пять минут — и все. Мы хотели, чтобы у нас был долгосрочный проект, и поэтому сделали веб-сервис, которым каждый может воспользоваться. Это потребовало больших затрат труда. Создание веб-сервиса всегда сопряжено с кучей проблем, с решением каких-то мелких вопросов, проблем пользователей. В итоге вся работала над проектом длилась примерно год.

Мы надеемся регулярно обновлять сервис данными. Сейчас, когда все настроено и работает, это уже не занимает много времени. В статье для сборника «Диалога» мы говорим только о 2010–2019 годах, но буквально за месяц до конференции мы собрали тексты за первую половину 2020 года и обучили новую модель. Поэтому на сайте уже можно изучать семантическую эволюцию слов за первую половину 2020 года. В этом и была наша цель — создать инфраструктуру, которая позволила бы дальше обновлять проект в рабочем режиме. Мы надеемся, что с его помощью коллеги смогут найти нестандартные вещи в развитии русского языка.

— А в чем ваш личный исследовательский интерес — в разработке такого подхода и инструмента или в том материале, на котором вы работали?

— Мне интересно и то, и другое. Как, наверное, почти любой компьютерный лингвист, я существо двухголовое. Мне интересны и инженерные вопросы — как построить правильно работающую систему, чтобы все было корректно, и пользователи были довольны; с другой стороны, интересно, по каким законам работает изменение значения слов во времени, какие лингвистические процессы происходят, когда слова меняют свою семантику.

Понравился материал? Добавьте Indicator.Ru в «Мои источники» Яндекс.Новостей и читайте нас чаще.

Подписывайтесь на Indicator.Ru в соцсетях: Facebook, ВКонтакте, Twitter, Telegram, Одноклассники.