Опубликовано 08 августа 2017, 15:31

Заменит ли программа живого ученого: интервью специалиста ABBYY

Нейросети на службе теоретической лингвистики

Владимир Селегей

Летом 2017 года в Москве прошла 23-я конференция по компьютерной лингвистике и интеллектуальным технологиям «Диалог-2017». Indicator.Ru поговорил с одним из идеологов конференции, директором по лингвистическим исследованиям компании ABBYY Владимиром Селегеем. Публикуем первую часть беседы – о роли Википедии в лингвистике, распознавании документов, «вечном двигателе» в филологии и развитии науки по спирали.

— Вы руководите сразу двумя кафедрами АBBYY – в МФТИ и в РГГУ. Одна из кафедр – лингвистическая, а другая – техническая. А сами-то вы по происхождению, по образованию – кто? Лингвист или программист?

— По первому образованию я не лингвист. Я учился на кафедре прикладной математики в МЭИ, диплом защищал по приложениям теории графов, но затем мне «повезло»: я попал в армию. Кроме шуток: я в армии занимался траекторными вычислениями – там что-то летало, а мы считали траектории. И у меня было много досуга для самообразования. И именно там я окончательно переквалифицировался в специалиста по искусственному интеллекту и компьютерной лингвистике, и с тех пор я больше никогда не занимался графами.

Моя специализация – и именно поэтому я столько времени уделяю «Диалогу» — это создание компьютерных моделей языка и их практическое применение, в том числе и для целей самой лингвистики.

— Когда я начинал следить за появлением компании ABBYY, основной ее темой было распознавание отсканированного текста, букв. Вы в этом тоже принимали участие?

— Лингвистическая задача тут состояла в создании моделей словоизменения для многих языков, которые мы распознаем. Но в целом нашей задачей является распознавание не просто отдельных слов, а целого документа. В чем разница? Символ входит в слово, слово – в предложение, предложения оформлено в более крупные единицы, формирующие структуру распознаваемого документа. Важно, чтобы вы на выходе получили его в электронной форме в том виде, в каком он был изначально на бумаге. Это нужно для того, чтобы с текстом можно было работать дальше, с сохранением всей нужной информации.

— Но эта проблема плавно перетекает в проблему извлечения информации?

— Конечно, и мы давно занялись этой задачей. Например, создали решения, которые помогают компаниям и организациям во всем мире работать с огромными объемами текстовых данных. Это и универсальная платформа для интеллектуальной обработки информации из любых типов документов: отсканированных бумаг, электронных документов, текстов писем и вложений, фотографий. Она распознает, классифицирует документы по типу, извлекает нужные данные, проверяет их корректность и передает в корпоративные информационные системы.

Кроме того, мы разработали технологию ABBYY Compreno для анализа и понимания текстов на естественных языках. Она находит и извлекает из неструктурированного текста нужные данные: объекты, факты, и определяет связи между ними. Сейчас мы можем делать это для русского, английского и немецкого языков, но есть технологии, позволяющие быстро подключать новые языки.

Однако для того, чтобы технологии правильно анализировали большие объемы неструктурированных данных, необходимо иметь большое количество структурированных «размеченных» документов для настройки, обучения. Откуда их взять – это огромная проблема. Тут на помощь приходят параллельные и просто похожие тематически тексты на разных языках, потому что размеченных структурированных документов в нашем мире больших данных недостаточно много.

— Если говорить про параллельные тексты: на «Диалоге» я специально послушал «рядовые» доклады и обратил внимание, что многие специалисты работают с корпусом текстов Википедии. Это стандартный модельный корпус нынче?

— У Википедии с точки зрения компьютерной лингвистики есть два главных достоинства. Это, во-первых, очень большой ресурс параллельных текстов на разных языках, а во-вторых, это ресурс актуальный, расширяемый десятками тысяч энтузиастов. И обычно для огромного числа статей на одном языке можно найти аналогичные статьи на десятках других языков. Кроме того, между статьями установлены связи. Этот параллелизм и наличие связей между статьями позволяет существенно снимать проблему языковой неоднозначности.

Но Вики хоть и важнейший, но не единственный источник обучения технологий, существуют и другие. На прошлом «Диалоге», кстати, главной была тема Linked Data – так называется особое направление в компьютерной лингвистике, в рамках которого пытаются связать в единое целое все имеющиеся в интернете языковые и энциклопедические ресурсы, чтобы получить, как теперь принято говорить, облако. Но Википедия – это самый простой вход в это огромное облако данных и хороший ресурс для быстрого обучения технологий компьютерной лингвистики.

— Например?

— Например, у нас есть очень важная задача извлечения данных из распознанных документов, которая называется Name Entity Recognition (NER). Из текста документа программе нужно «вытаскивать» и идентифицировать упоминаемые в них персоны, организации, места… Размеченная Википедия здесь важнейший ресурс для обучения, ведь в ней есть много данных, позволяющих узнавать и различать такие объекты.

Например, Вашингтон — президента Соединенных Штатов и Вашингтон – столицу вышеуказанного государства. А еще это может быть университет или бассейн и много чего еще. Имена собственные редко «ходят в одиночку». И здесь очень важно учиться определять характерные контексты употребления разных «ипостасей» этого имени.

Так что Вики — это важнейшая часть ресурсной кухни современной компьютерной лингвистики. Кроме того, можно использовать такие данные, входящие в облако Linked Data, и для получения собственно лингвистических знаний. Мы такие ресурсы называем квазилингвистическими. В хорошем смысле слова «квази», то есть они созданы совершенно не для целей описания языка, но вполне пригодны для извлечения лингвистических знаний.

— Вы упомянули, что у каждого «Диалога» есть какая-то тема. Как формулировалась тема форума этого года?

Обычно мы заранее планируем главную тему или пару таких тем на основании анализа как текущего состояния дел в компьютерной лингвистике, так и запросов участников конференции. Такая тема-доминанта – это сочетание приглашенного докладчика с мировым именем, докладов, принятых в программу, и соревнования технологий, которое проводится параллельно. Но в этом году мы даже не стали заранее объявлять какие-то доминанты, а решили просто «послушать эфир», посмотреть, что окажется актуальным по докладам участников. И получилась весьма интересная картина.

Прежде всего стало ясно, что самой «горячей» стала тема так называемого глубинного машинное обучения. Модные сегодня технологии deep learning возникли уже довольно давно, еще в 1980-х, начале 90-х. Но не было нужного объема данных, с которыми можно было бы работать, и не было мощностей, которые могли бы справиться с их обработкой. Сейчас такие данные и такие вычислительные ресурсы появились, и технологии оказались востребованными.

Ирония судьбы: в начале тысячелетия в компьютерной лингвистике сменилась господствующая парадигма. Статистика и методы «простого» машинного обучения, составившие арсенал компьютерной лингвистики, оставили несколько не у дел лингвистов «старого образца». Но теперь «на обочине» оказались уже инженеры-компьютерные лингвисты – в их устоявшийся мир пришли специалисты по deep learning и по обработке очень больших объемов очень сырых данных. Математики стали «побивать» инженеров, которые раньше «побивали» лингвистов и филологов.

Но идет время, дым баталий понемногу рассеивается, и пора разбираться с тем, что в итоге получилось. Интересная тенденция, заметная на последнем «Диалоге», состоит в том, что лингвисты стали активно использовать методы машинного обучения, а теперь уже и нейронные сети, для получения новых данных о самом языке, то есть для создания и уточнения моделей языка. Помните, как в советское время учили про то, что развитие идет по спирали? Так и получилось – старые методы, основанные на правилах и аналитических моделях, были «превзойдены» новыми, но эти новые методы постепенно берут на вооружение те, кто хочет создавать более совершенные модели языка.

И вот одной из важных тем «Диалога» и стало как раз это обращение арсенала компьютерной лингвистики, в частности нейросетей, для целей теоретической лингвистики.

— Очень интересно. А можно примеры?

— Приведу пограничный, почти парадоксальный пример. В одном из исследований с помощью нейросетей попытались доказать, что существует корреляция между звучанием слова и его смыслом. То, что называется словом «фоносемантика». Знаете, в свое время французская академия наук прекратила принимать работы, доказывающие возможность построить вечный двигатель. Примерно так же в лингвистике незыблема идея произвольности знака – это один из краеугольных камней, давно не ставящийся под сомнение. А тут вот нейросети говорят, что некоторая корреляция есть. Пусть не очень сильная и частная, но все же есть. Да, к докладчику были претензии, что в работе не хватает лингвистического анализа, но мы видим главное – нейронные сети начали применять в самой лингвистике, чего раньше не было.

— А еще?

— Много, много разных интересных работ. Кто-то пытается научить нейросети шутить – в смысле, строить предложения так, чтобы было смешно. Кто-то пытается построить модели диалога. Нейронные сети стали инструментом, который каждый, подчеркиваю – каждый, может достать «из коробки» и попробовать применить.

— То есть программы заменяют ученых и лингвистов?

— Нет, получить конкурентное преимущество за счет только нейронных сетей невозможно. Ведь сейчас все могут ими пользоваться, все данные, библиотеки открыты. Однако тут есть одно «но». Даже студент за два-три месяца, компонуя плагины из библиотек, может получить хорошие результаты, просто пробуя разные варианты на опубликованных тестовых корпусах. Раньше это было невозможно, и это очень хорошо, что так теперь есть. Но не только эти методы доступны и вашим конкурентам, они еще и в сильной степени основаны на одних и тех же обучающих данных.

Чтобы двигаться дальше, нужно либо каким-то образом существенно увеличить их объем и разнообразие, либо вновь возвращаться к идее гибридных методов, когда помимо машинного обучения будут использоваться и аналитические модели и знания.

Можно сказать, что нейросети дали компьютерной лингвистике новый очень высокий baseline, новый уровень, на который поднялись все. Дальше снова нужно думать, как с этого уровня подняться еще выше.

Подписывайтесь на Indicator.Ru в соцсетях: Facebook, ВКонтакте, Twitter, Telegram, Одноклассники.

Автор: Алексей Паевский

Теги #Машинное обучение #Дискуссионный клуб #Нейросеть