Библия позволит осуществлять машинный перевод на тысячи языков
При помощи методов компьютерной лингвистики ученые создали сравнительную карту времен для более чем тысячи языков. Основой для исследования стала Библия — единственный текст, переведенный как минимум на две тысячи языков. Работа опубликована на сервере препринтов arXiv.org.
Читайте также
Лингвисты насчитывают в мире около 7000 языков, однако 95% людей пользуются всего сотней. Более того, носителей трети языков весьма мало — менее тысячи, поэтому они в самом скором времени могут исчезнуть. Современные системы машинного перевода работают примерно с сотней языков, так как для обучения им нужен большой корпус текстов. Для большинства языков такого корпуса нет.
Сотрудники Мюнхенского университета Людвига-Максимилиана Эхсанеддин Асгари и Хинрих Шютце нашли способ автоматически анализировать менее распространенные языки. Они создали базу данных из переводов Библии на 1169 языков. Затем исследователи вручную отметили языковые маркеры, отвечающие обозначению времени, в нескольких языках, а потом при помощи методик сбора данных стали выявлять подобные маркеры в переводах.
В качестве начальных они использовали не распространенные языки, такие как английский, а представителей семейства креольских, появившихся как смесь других языков. Выбор обоснован их небольшим возрастом и, соответственно, малым количеством исключений. «Наше обоснование состоит в том, что креольские языки более регулярны, так как молоды, и не успели накопить исторического багажа, создающего проблемы для компьютерного анализа», — говорят авторы. Это позволило составить диаграмму, показывающую родственные взаимоотношения между языками в плане использования лингвистических меток времени.
«Нам понадобилось всего лишь лингвистическая особенность, открыто обозначенная в нескольких из тысяч языков, в отличие от требования отметить ее во всех исследуемых языках», — утверждают авторы. Потенциально, это может привести к появлению мгновенного машинного перевода на множество языков, превосходящего по качеству сделанный человеком.