01
А
Астрономия
02
Б
Биология
03
Г
Гуманитарные науки
04
М
Математика и CS
05
Мд
Медицина
06
Нз
Науки о Земле
07
С
Сельское хозяйство
08
Т
Технические науки
09
Ф
Физика
10
Х
Химия и науки о материалах
Гуманитарные науки
11 мая

Библия позволит осуществлять машинный перевод на тысячи языков

Tabble/Pixabay

При помощи методов компьютерной лингвистики ученые создали сравнительную карту времен для более чем тысячи языков. Основой для исследования стала Библия — единственный текст, переведенный как минимум на две тысячи языков. Работа опубликована на сервере препринтов arXiv.org.

Лингвисты насчитывают в мире около 7000 языков, однако 95% людей пользуются всего сотней. Более того, носителей трети языков весьма мало — менее тысячи, поэтому они в самом скором времени могут исчезнуть. Современные системы машинного перевода работают примерно с сотней языков, так как для обучения им нужен большой корпус текстов. Для большинства языков такого корпуса нет.

Сотрудники Мюнхенского университета Людвига-Максимилиана Эхсанеддин Асгари и Хинрих Шютце нашли способ автоматически анализировать менее распространенные языки. Они создали базу данных из переводов Библии на 1169 языков. Затем исследователи вручную отметили языковые маркеры, отвечающие обозначению времени, в нескольких языках, а потом при помощи методик сбора данных стали выявлять подобные маркеры в переводах.

В качестве начальных они использовали не распространенные языки, такие как английский, а представителей семейства креольских, появившихся как смесь других языков. Выбор обоснован их небольшим возрастом и, соответственно, малым количеством исключений. «Наше обоснование состоит в том, что креольские языки более регулярны, так как молоды, и не успели накопить исторического багажа, создающего проблемы для компьютерного анализа», — говорят авторы. Это позволило составить диаграмму, показывающую родственные взаимоотношения между языками в плане использования лингвистических меток времени.

«Нам понадобилось всего лишь лингвистическая особенность, открыто обозначенная в нескольких из тысяч языков, в отличие от требования отметить ее во всех исследуемых языках», — утверждают авторы. Потенциально, это может привести к появлению мгновенного машинного перевода на множество языков, превосходящего по качеству сделанный человеком.

Комментарии

Все комментарии
Обсуждаемое