Анализ словаря сленга поможет отследить эволюцию языка
Ученые впервые провели крупномасштабное изучение крупнейшего словаря англоязычного сленга Urban Dictionary. Анализ стал первым в своем роде и должен помочь найти ответ на вопрос, являются ли онлайн-словари лишь отражением изменения языка или активно участвуют в нем. Работа опубликована на сервере препринтов arXiv.org.
Сайт Urban Dictionary был запущен в 1999 году как пародия на стандартный словарь Dictionary.com, однако с тех пор стал важным ресурсом в Интернете, к которому даже официально обращались судьи в Великобритании для понимания слов участвовавших в разбирательстве рэперов. Особенностью Urban Dictionary является пополнение и модерация усилиями самих пользователей — любой желающий может добавить новое слово или проголосовать за или против одного из уже написанных объяснений.
Чтобы выяснить, насколько быстро в Urban Dictionary появляются новые слова и что можно узнать, сравнив его с более традиционным, но также пополняемым пользователями, словарем Wiktionary, исследователи из британского Института Алана Тьюринга провели первый крупномасштабный анализ. Эти два словаря существенно отличаются: в Urban Dictionary нет шаблона оформления, только возможность дать краткое описание и несколько примеров, при этом чужое описание нельзя править, только проголосовать за него, в то время как Wiktionary обладает строгой структурой, можно внести изменением в любую запись, а модераторы следят за правильностью оформления, отслеживают и исправляют вандализм.
Анализ показал, что в Urban Dictionary содержится 2 661 625 определений для 1 620 438 слов и фраз. Большинство объяснено только одним человеком, хотя некоторые имеют свыше тысячи описаний. Рекордсменом является слово «emo» (представитель музыкальной субкультуры эмо), для которого написано 1 204 определения.
Пересечений между словарями оказалось мало — 72% слов из Urban Dictionary не представлены в Wiktionary. Однако авторы заметили, что многие записи словаря сленга релевантны лишь для небольшого количества людей — например, являются прозвищами, предположительно, конкретного человека. Поэтому они решили использовать только термины с двумя или более описаниями — тогда пересечений стало намного больше и лишь 25% не оказалось в Wiktionary. Также это оказалось верно, если поменять словари местами: 69% слов из Wiktionary не определены в Urban Dictionary, что не удивительно, так как первый содержит много энциклопедических терминов, таких как, например, официальные названия химических веществ.
Чтобы разобраться с секцией примеров и мнений в Urban Dictionary, авторы исследования попросили волонтеров определить, помогает ли текст в этой секции раскрыть смысл термина или является мнением добавившего, а также указать, знакомо ли им значением этого слова. Оказалось, что около половины тексов в этой секции в описании имен собственных оказались мнениями, причем оценивавшие люди были незнакомы с большинством из них. «Мы также обнаружили, что слова с большим количеством определений оказывают более знакомыми волонтерам, что указывает на соответствие содержания Urban Dictionary языковым тенденциям в широком смысле», — пишут авторы исследования.
В дальнейшем авторы собираются провести более детальный анализ, сравнить Urban Dictionary с традиционными словарями, пополняющимися не за счет усилий многих читателей, а также с лексиконом пользователей социальных сетей, что поможет определить реальную степень его соответствия современному языку.