Математика и Computer Science

Анализ словаря сленга поможет отследить эволюцию языка

Анализ словаря сленга поможет отследить эволюцию языка

Delete

Ученые впервые провели крупномасштабное изучение крупнейшего словаря англоязычного сленга Urban Dictionary. Анализ стал первым в своем роде и должен помочь найти ответ на вопрос, являются ли онлайн-словари лишь отражением изменения языка или активно участвуют в нем. Работа опубликована на сервере препринтов arXiv.org.

Сайт Urban Dictionary был запущен в 1999 году как пародия на стандартный словарь Dictionary.com, однако с тех пор стал важным ресурсом в Интернете, к которому даже официально обращались судьи в Великобритании для понимания слов участвовавших в разбирательстве рэперов. Особенностью Urban Dictionary является пополнение и модерация усилиями самих пользователей — любой желающий может добавить новое слово или проголосовать за или против одного из уже написанных объяснений.

Чтобы выяснить, насколько быстро в Urban Dictionary появляются новые слова и что можно узнать, сравнив его с более традиционным, но также пополняемым пользователями, словарем Wiktionary, исследователи из британского Института Алана Тьюринга провели первый крупномасштабный анализ. Эти два словаря существенно отличаются: в Urban Dictionary нет шаблона оформления, только возможность дать краткое описание и несколько примеров, при этом чужое описание нельзя править, только проголосовать за него, в то время как Wiktionary обладает строгой структурой, можно внести изменением в любую запись, а модераторы следят за правильностью оформления, отслеживают и исправляют вандализм.

Анализ показал, что в Urban Dictionary содержится 2 661 625 определений для 1 620 438 слов и фраз. Большинство объяснено только одним человеком, хотя некоторые имеют свыше тысячи описаний. Рекордсменом является слово «emo» (представитель музыкальной субкультуры эмо), для которого написано 1 204 определения.

Пересечений между словарями оказалось мало — 72% слов из Urban Dictionary не представлены в Wiktionary. Однако авторы заметили, что многие записи словаря сленга релевантны лишь для небольшого количества людей — например, являются прозвищами, предположительно, конкретного человека. Поэтому они решили использовать только термины с двумя или более описаниями — тогда пересечений стало намного больше и лишь 25% не оказалось в Wiktionary. Также это оказалось верно, если поменять словари местами: 69% слов из Wiktionary не определены в Urban Dictionary, что не удивительно, так как первый содержит много энциклопедических терминов, таких как, например, официальные названия химических веществ.

Чтобы разобраться с секцией примеров и мнений в Urban Dictionary, авторы исследования попросили волонтеров определить, помогает ли текст в этой секции раскрыть смысл термина или является мнением добавившего, а также указать, знакомо ли им значением этого слова. Оказалось, что около половины тексов в этой секции в описании имен собственных оказались мнениями, причем оценивавшие люди были незнакомы с большинством из них. «Мы также обнаружили, что слова с большим количеством определений оказывают более знакомыми волонтерам, что указывает на соответствие содержания Urban Dictionary языковым тенденциям в широком смысле», — пишут авторы исследования.

В дальнейшем авторы собираются провести более детальный анализ, сравнить Urban Dictionary с традиционными словарями, пополняющимися не за счет усилий многих читателей, а также с лексиконом пользователей социальных сетей, что поможет определить реальную степень его соответствия современному языку.