01
А
Астрономия
02
Б
Биология
03
Г
Гуманитарные науки
04
М
Математика и CS
05
Мд
Медицина
06
Нз
Науки о Земле
07
С
Сельское хозяйство
08
Т
Технические науки
09
Ф
Физика
10
Х
Химия и науки о материалах
Математика и Computer Science
8 января

Анализ словаря сленга поможет отследить эволюцию языка

Delete

Ученые впервые провели крупномасштабное изучение крупнейшего словаря англоязычного сленга Urban Dictionary. Анализ стал первым в своем роде и должен помочь найти ответ на вопрос, являются ли онлайн-словари лишь отражением изменения языка или активно участвуют в нем. Работа опубликована на сервере препринтов arXiv.org.

Сайт Urban Dictionary был запущен в 1999 году как пародия на стандартный словарь Dictionary.com, однако с тех пор стал важным ресурсом в Интернете, к которому даже официально обращались судьи в Великобритании для понимания слов участвовавших в разбирательстве рэперов. Особенностью Urban Dictionary является пополнение и модерация усилиями самих пользователей — любой желающий может добавить новое слово или проголосовать за или против одного из уже написанных объяснений.

Чтобы выяснить, насколько быстро в Urban Dictionary появляются новые слова и что можно узнать, сравнив его с более традиционным, но также пополняемым пользователями, словарем Wiktionary, исследователи из британского Института Алана Тьюринга провели первый крупномасштабный анализ. Эти два словаря существенно отличаются: в Urban Dictionary нет шаблона оформления, только возможность дать краткое описание и несколько примеров, при этом чужое описание нельзя править, только проголосовать за него, в то время как Wiktionary обладает строгой структурой, можно внести изменением в любую запись, а модераторы следят за правильностью оформления, отслеживают и исправляют вандализм.

Анализ показал, что в Urban Dictionary содержится 2 661 625 определений для 1 620 438 слов и фраз. Большинство объяснено только одним человеком, хотя некоторые имеют свыше тысячи описаний. Рекордсменом является слово «emo» (представитель музыкальной субкультуры эмо), для которого написано 1 204 определения.

Пересечений между словарями оказалось мало — 72% слов из Urban Dictionary не представлены в Wiktionary. Однако авторы заметили, что многие записи словаря сленга релевантны лишь для небольшого количества людей — например, являются прозвищами, предположительно, конкретного человека. Поэтому они решили использовать только термины с двумя или более описаниями — тогда пересечений стало намного больше и лишь 25% не оказалось в Wiktionary. Также это оказалось верно, если поменять словари местами: 69% слов из Wiktionary не определены в Urban Dictionary, что не удивительно, так как первый содержит много энциклопедических терминов, таких как, например, официальные названия химических веществ.

Чтобы разобраться с секцией примеров и мнений в Urban Dictionary, авторы исследования попросили волонтеров определить, помогает ли текст в этой секции раскрыть смысл термина или является мнением добавившего, а также указать, знакомо ли им значением этого слова. Оказалось, что около половины тексов в этой секции в описании имен собственных оказались мнениями, причем оценивавшие люди были незнакомы с большинством из них. «Мы также обнаружили, что слова с большим количеством определений оказывают более знакомыми волонтерам, что указывает на соответствие содержания Urban Dictionary языковым тенденциям в широком смысле», — пишут авторы исследования.

В дальнейшем авторы собираются провести более детальный анализ, сравнить Urban Dictionary с традиционными словарями, пополняющимися не за счет усилий многих читателей, а также с лексиконом пользователей социальных сетей, что поможет определить реальную степень его соответствия современному языку.

Комментарии

Все комментарии
Обсуждаемое