Математика и Computer Science

Как раскрывают тайны манускрипта Войнича: расследование Indicator.Ru

Чем рискованно вторжение математиков в лингвистику

© Wikimedia Commons

Что стоит за сенсационной новостью о манускрипте Войнича и о российских ученых, можно ли точно определить язык по тексту, насколько адекватны математики в работе на «поле» лингвистики — разбирается Indicator.Ru

Что стоит за сенсационной новостью о манускрипте Войнича и о российских ученых, можно ли точно определить язык по тексту, насколько адекватны математики в работе на «поле» лингвистики — разбирается Indicator.Ru.

19 апреля российские СМИ растиражировали новость об «эпохальном» открытии российских математиков: ученые с помощью нового метода не просто доказали осмысленность знаменитой «рукописи Войнича», но и смогли определить, что она была написана на двух языках и с исключением букв для гласных звуков.

Рукопись Войнича — это средневековый иллюстрированный манускрипт, купленный в 1912 году антикваром Вильфредом Войничем. Созданный в XV веке (по данным радиоуглеродного анализа пергамента — но большинство ученых в настоящий момент сам текст не считают позднейшей подделкой), он написан на неизвестном языке с использованием неизвестного алфавита. Судя по иллюстрациям, текст состоит из тематических блоков: ботанического, астрономического, фармакологического и других. Сложность расшифровки текста сделала манускрипт Войнича «святым Граалем» для криптографов и объектом многих исследований, в том числе и с применением методов Big Data.

Новость о рукописи на сайте агентства «РИА Новости» была подана как нечто сенсационное. Это сразу вызвало некоторую настороженность. «До этого все попытки расшифровать уникальный документ и даже просто понять, является ли он осмысленным текстом, проваливались. 600 лет бесполезных стараний!.. Криптографы ЦРУ и АНБ, суперкомпьютеры и даже доктора "оккультных наук" расписались в своем полном бессилии. Последнее сообщение криптолога Гордона Рагга (Gordon Rugg) из Килского университета в Великобритании таково: "Рукопись Войнича является фальшивкой. Такой "сложный текст" легко сконструировать каждому, кто знаком с простыми методами копирования"», — говорилось в материале.

Во-первых, осмысленность текста была признана еще в 1970-х годах и несколько раз подтверждена в исследованиях 2010-х, о чем достаточно подробно писали даже в отечественных СМИ. Во-вторых, открытие, поданное в новости, было представлено только в виде институтского препринта, а не в статье в международном рецензируемом журнале (вышел препринт к тому же еще в 2016 году).

Эти странности в подаче материала заставили нас обратиться за разъяснениями сначала к автору исследования, а потом и к независимым экспертам — лингвистам, работающим со статистическими и математическими методами, а также с расшифровкой древних письменностей.

Формулу написать легко, а провести численный анализ — очень затратно

Сначала коротко о сути исследования. Авторы препринта, математики из МФТИ и Института прикладной математики РАН, опираются на свои работы, согласно которым «распределения символов текстов по частоте встречаемости являются устойчивой характеристикой не автора или тематики текста, но языка». То есть по набору при помощи математических средств можно определить, на каком языке он написан, благодаря тому, что у каждого языка есть свой характерный «профиль» (распределение показателя Херста). Далее, взяв за основу эти методы, ученые установили, что текст рукописи был написан на смеси нескольких языков. При этом в него добавили ложные пробелы и убрали символы, обозначающие гласные звуки.

Ведущий автор исследования, Юрий Орлов (ИПМ РАН и МФТИ), подчеркнул, что манускрипт Войнича вообще не является главной целью их работы. «"Сенсационная" рукопись — это лишь иллюстрация к математическому методу распознавания языков по тексту — задачи, по сути, для машинного обучения», — заявил Орлов.

Сам по себе манускрипт нам не интересен абсолютно. Наука относится именно к статистике языков. Через нее мы можем понять, на каком языке написан этот манускрипт. Но не то, что там написано, это важный момент.

Юрий Орлов
МФТИ и Институт прикладной математики имени М.В. Келдыша

По поводу использованного в работе лингвистического метода Орлов отмечает, что сам по себе анализ частоты буквосочетаний в текстах — вещь известная. Однако индикатор Херста лингвистам известен плохо, так как его трудно вычислить даже в математическом плане. Саму формулу написать легко, а провести численный анализ — очень затратно. Для этого и пригодился суперкомпьютер, находящийся в Институте имени М.В. Келдыша, подчеркивает математик.

Выбор именно индоевропейских языков для анализа объясняется тем, что все они очень похожи, говорит Орлов. Разработанные математиками индикаторы позволяют легко отличить языки внутри одной языковой группы, но не между семьями. Конечно, теоретически возможно провести ту же работу с другими группами (уральскими, алтайскими или иными), но ценность анализа заключается в его полноте, уверен Орлов. В случае с индоевропейскими языками набрать корпус текстов для каждого языка несложно, с другими семьями это сделать труднее.

Возвращаясь к манускрипту Войнича, Орлов отметил, что он и его коллеги привели пять доказательств (логарифмический профиль частотной упорядоченности букв в тексте на одном и нескольких языках, распределение показателя Херста, спектральный портрет матрицы условных вероятностей и другие) гипотезы о смеси языков в рукописи и выкидывании букв для гласных. Они подчеркнуто дистанцируются от «тусовки вокруг манускрипта», зато предъявили уникальный результат — открытый метод, статистический анализ с оценкой достоверности, которая может быть независимо проверена.

«Вывод обесценивается тем, что мы не понимаем, на каком материале они выводили и на каком — проверяли свою формулу»

Само по себе предположение, что текст манускрипта Войнича лишен букв для гласных, с неправильно расставленными пробелами — красивое и хорошее, отмечает лингвист Евгения Коровина, занимающаяся математической статистикой языка (Институт языкознания РАН). Раньше такую гипотезу никто не выдвигал. Она, например, красиво объясняет, почему букв там меньше, чем ожидалось бы для текста на европейском языке. Но проблема в том, что авторы исследования даже не указали, какие именно тексты на разных языках они сравнивали и каков был объем этих тестов. А языков в препринте упоминается огромное количество. Поэтому исследование не является воспроизводимым: если взять произвольные тексты на тех же языках, не факт, что выйдут те же закономерности.

С Коровиной согласна Мария Молина, специалист по корпусным методам в изучении древних языков (Институт языкознания РАН). Новые методы обработки лингвистических данных, по ее мнению, помогают получить информацию о том, что раньше для исследователей языка было закрыто. Однако недостаточно хорошо подготовленный входящий материал часто дискредитирует даже самые прекрасные методы обработки данных.

Вывод обесценивается тем, что мы не понимаем, на каком материале они выводили и на каком — проверяли свою формулу. Для своего материала я точно знаю, что небольшая методологическая ошибка — и я получаю критически отличающиеся цифры.

Мария Молина
Институт языкознания РАН

«Garbage in — garbage out», — добавляет Молина (GIGO — принцип в информатике, означающий, что при неверных входящих данных будут получены неверные результаты, даже если сам по себе алгоритм правилен, — прим. Indicator.Ru).

«Статистические методы — все-таки намеки на результаты, а не результаты»

Еще резче высказался Альберт Давлетшин (сотрудник Центра лингвистической компаративистики ИВКА РГГУ, занимается языком майя и полинезийскими языками). Если авторы препринта не собирались расшифровывать манускрипт Войнича, зачем они этим занимаются? И дальше, если говорить именно о расшифровке неизвестной письменности, встает вопрос за вопросом: «Исходные данные о письменности отсутствуют — какого типа письмо? Как получены разные транскрипции? Сколько знаков? Что лежит в основе существующих предположений о природе письма? Какова длина слова, выделяемого пробелами и без пробелов? Что означают пробелы? Каков объем словаря? Каково соотношение подписей и рисунков?

Вначале получается, что текст датский и только датский (и это исторически невозможно, про что в работе ни слова). Потом оказывается, что текст на двух неизвестных языках (верификация на этом этапе оказывается невозможной и принимается на веру). Притом что есть множество консервативных способов показать, что две страницы (большого объема) написаны одним письмом, но на разных языках, не прибегая к сложным математическим моделям. Наконец, если из текста убраны гласные, насколько это подтверждается стандартными, давно известными методами (например, Сухотина, Шеворошкина и Вентриса)?».

Критикует Давлетшин и нечуткость к филологии и истории, характерную для такого рода исследований:

Что я вижу в тексте: часто встречаются люди, которые хотят взять источник Х и забыть о том, что он источник и существует в некотором историческом, в том числе языковом, контексте, и что-то в нем посчитать как-нибудь. Гипотеза о том, что в рукописи более одного языка, интересна. Но ведь можно было же по-человечески как-то это показать. Статистические методы — все-таки намеки на результаты, а не результаты.

Альберт Давлетшин
Центр лингвистической компаративистики ИВКА РГГУ

Нет критерия, как отличить интересные результаты от ужасных

Более сбалансированную позицию занял Георгий Старостин, эксперт по сравнительно-историческому языкознанию (РГГУ). Его больше заинтересовало то, насколько новые математические методы полезны для решения стоящих перед лингвистами задач. «Модель, представленная в статье, производит странное впечатление. Она, с одной стороны, как бы относится к разряду "слепых", анализируя текстовые данные без каких-либо предварительных суждений об устройстве алфавита (например, диграфы, как английские ch, sh, должны считаться сочетаниями двух букв, хотя это на самом деле один звук). С другой стороны, из сравниваемых цепочек выкидываются гласные, которые, по мнению авторов текста, содержат меньше информации и скорее добавляют шум. Вообще, тестовая база явно очень маленькая, на таком количестве языков о чем-то фундаментальном говорить невозможно».

Результаты по сравнению индоевропейских и уральских языков, представленные в сопоставительной таблице 3 в статье, особенного оптимизма Старостину не внушают. Какие-то показатели степени близости языков улавливаются хорошо (например, внутригерманские или внутрироманские связи), какие-то — плохо (например, индоевропейскую семью методика уже не выявляет). Главное — нет критерия, как отличить интересные результаты от ужасных. В лучшем случае метод позволяет выделить небольшие языковые группы (хотя даже и здесь он не работает между близкородственными финским и эстонским), но все эти группы можно надежно выявить и без него.

Таблица 3 из препринта, где представлены результаты по сравнению индоевропейских и уральских языков. Одинаковым цветом в табл. 3 выделены группы языков, попарно близких (в смысле нормы L1 распределений упорядоченных частот в текстах без огласовки). Красным цветом отмечены некоторые неожиданно близкие пары языков, например немецкий/венгерский, английский/эстонский, латинский/баскский и греческий/финский.

© Авторы препринта: Арутюнов А.А., Борисов Л.А., Зенюк Д.А., Ивченко А.Ю., Кирина-Лилинская Е.П., Орлов Ю.Н., Осминин К.П., Федоров С.Л., Шилин С.А.

Наконец, определять генетическую характеристику языка по распределению показателя Херста — интересная идея и, может быть, даже доводимая до какой-то научности. Но для этого потребуется обработать большое количество текстов на разных языках. И сразу встает проблема: многие языки бесписьменные, а насколько корректно сопоставлять алфавитные системы записи с фонетическими транскрипциями, остается неясным. Практического же толку от этой идеи будет очень мало, уверен Старостин. В лучшем случае ее, действительно, можно применить к казусам типа манускрипта Войнича, когда есть гипотеза, что какой-то язык со стандартной алфавитной письменностью шифруется по определенным принципам (например, с выкидыванием гласных и т. п.). Однако таких казусов в мире очень мало.

Подводим итоги

Что в сухом остатке? Дискуссия вокруг исследования ИПМ и МФТИ вскрыла глубокий разлом между лингвистическим сообществом (даже использующими статистические методы) и «чужими» относительно лингвистики специалистами, которые решили применить к языковому материалу свои математические инструменты.

То, что математики не хотят работать вместе с лингвистами, не просто рождает грубейшие ляпы, которые затем перекочевывают в СМИ (например, баскский язык в препринте назван индоевропейским, есть словосочетание «гласные буквы»). Красота моделей и вычислительная мощь суперкомпьютеров фактически обесценивается ошибками на точке ввода информации. Опять же, при желании и открытости контактов с коллегами из другой дисциплины этих ошибок легко можно было избежать.

Подписывайтесь на Indicator.Ru в соцсетях: Facebook, ВКонтакте, Twitter, Telegram.