Опубликовано 11 августа 2017, 09:50

Предложено объяснение самой большой загадки компьютерной лингвистики

Предложено объяснение самой большой загадки компьютерной лингвистики

© geralt/Pixabay

Ученые выдвинули теорию, объясняющую одну из главных закономерностей в компьютерной лингвистике — закон Ципфа. На это эмпирическое наблюдение люди впервые обратили внимание более ста лет назад и до сих пор не смогли его объяснить. Теория описана в журнале PLOS ONE.

Закон Ципфа связывает частоту, с которой слова встречаются в каком-либо языке, с его порядковым номером в списке по популярности. В частности, второе слово в списке наиболее часто употребляемых должно встречаться примерно в два раза реже, чем первое, третье — в три и так далее. Эта закономерность применима как к естественным языкам, так и к искусственным — например, для эсперанто закон Ципфа также выполняется.

«Я думаю, что закон Ципфа можно назвать самой большой загадкой в компьютерной лингвистике, — говорит Сандер Лестрейд из голландского Университета Неймегена, автор статьи. — Несмотря на десятилетия теоретизирования, его происхождение не удается выяснить». Лестрейд в новой работе показывает, что эту статистическую закономерность можно объяснить взаимодействием между структурой предложений (синтаксисом) и значением слов (семантикой) в тексте. Используя компьютерное моделирование, он показывает, что одного из этих ингредиентов недостаточно, но их совместное присутствие приводит к появлению закона Ципфа.

«В английском, как и в голландском, всего три артикля, но десятки тысяч существительных, — поясняет Лестрейд. — Существительные также сильно различаются между собой. Если объединить различия в значениях между словами одной части речи с необходимостью учитывать все части речи, то получается великолепное ципфовское распределение, которое отличается от идеального лишь слегка, также как и естественные языки».

К сильным сторонам новой теории можно отнести полное соответствие естественным грамматическим категориям, а также правильный результат распределения для многих языков. Тем не менее, необходимы независимые подтверждения теории от других лингвистов. В последние годы было высказано несколько гипотез о происхождении закона Ципфа, и некоторые из них пытались объяснить его чисто статистическим способом, утверждая, что даже случайные тексты воспроизводят эту закономерность.