01
А
Астрономия
02
Б
Биология
03
Г
Гуманитарные науки
04
М
Математика и CS
05
Мд
Медицина
06
Нз
Науки о Земле
07
С
Сельское хозяйство
08
Т
Технические науки
09
Ф
Физика
10
Х
Химия и науки о материалах
Математика и Computer Science
11 августа

Предложено объяснение самой большой загадки компьютерной лингвистики

geralt/Pixabay

Ученые выдвинули теорию, объясняющую одну из главных закономерностей в компьютерной лингвистике — закон Ципфа. На это эмпирическое наблюдение люди впервые обратили внимание более ста лет назад и до сих пор не смогли его объяснить. Теория описана в журнале PLOS ONE.

Закон Ципфа связывает частоту, с которой слова встречаются в каком-либо языке, с его порядковым номером в списке по популярности. В частности, второе слово в списке наиболее часто употребляемых должно встречаться примерно в два раза реже, чем первое, третье — в три и так далее. Эта закономерность применима как к естественным языкам, так и к искусственным — например, для эсперанто закон Ципфа также выполняется.

«Я думаю, что закон Ципфа можно назвать самой большой загадкой в компьютерной лингвистике, — говорит Сандер Лестрейд из голландского Университета Неймегена, автор статьи. — Несмотря на десятилетия теоретизирования, его происхождение не удается выяснить». Лестрейд в новой работе показывает, что эту статистическую закономерность можно объяснить взаимодействием между структурой предложений (синтаксисом) и значением слов (семантикой) в тексте. Используя компьютерное моделирование, он показывает, что одного из этих ингредиентов недостаточно, но их совместное присутствие приводит к появлению закона Ципфа.

«В английском, как и в голландском, всего три артикля, но десятки тысяч существительных, — поясняет Лестрейд. — Существительные также сильно различаются между собой. Если объединить различия в значениях между словами одной части речи с необходимостью учитывать все части речи, то получается великолепное ципфовское распределение, которое отличается от идеального лишь слегка, также как и естественные языки».

К сильным сторонам новой теории можно отнести полное соответствие естественным грамматическим категориям, а также правильный результат распределения для многих языков. Тем не менее, необходимы независимые подтверждения теории от других лингвистов. В последние годы было высказано несколько гипотез о происхождении закона Ципфа, и некоторые из них пытались объяснить его чисто статистическим способом, утверждая, что даже случайные тексты воспроизводят эту закономерность.

Комментарии

Все комментарии
Обсуждаемое