Технические науки

Почти как люди

Искусственный интеллект научился «понимать» речь не хуже человека

© Dominic Hart/NASA

Как устроены системы распознавания речи, кто победил в гонке Microsoft и IBM и при чем тут питерские ученые, рассказывает Indicator.Ru

Как устроены системы распознавания речи, кто победил в гонке Microsoft и IBM и при чем тут питерские ученые, рассказывает Indicator.Ru.

«Мы достигли уровня человека»

В конце октября компания Microsoft объявила, что ей удалось усовершенствовать систему распознавания речи и сократить количество ошибок, которые искусственный интеллект делает при «прослушивании» спонтанной речи до рекордных 5,9%. До этого на конференции InterSpeech 2016 компания заявила, что обогнала своего главного конкурента — IBM, у которого показатели снизились до 6,6% ошибок. «Мы достигли уровня человека. Это историческое достижение», — сообщил специалист Microsoft по работе с искусственным интеллектом (Microsoft Artificial Intelligence and Research) Сюэдун Хуан (Xuedong Huang). По словам разработчиков, схожие результаты показывают профессиональные стенографисты.

«Стать как человек» компания смогла благодаря использованию глубоких нейронных сетей — моделированию биологических и когнитивных процессов в головном мозге человека. Именно нейронные сети считаются ключевой технологией в разработках систем распознавания не только устной, но и письменной речи, а также распознавания фотографий. Исследователи объясняют высокое качество распознавания «системным использованием архитектуры LSTM построения рекуррентных нейронных сетей для акустического и языкового моделирования, сверточных нейронных сетей в акустической модели, а также широкой комбинации комплементарных моделей».

Важно отметить, что речь идет именно о спонтанной речи. С середины 90-х годов научное сообщество бьется над распознаванием этого типа речи. Системы, которые распознают команды и диктовку, существовали и до этого. Что же касается ситуаций, в которых человек говорит невнятно, быстро, отрывочно или же вообще не хочет, чтобы его поняли, относительно них проблема до сих пор оставалась острой. «Начиная с 43% — это огромная ошибка, больше половины слов неправильно. Они (Microsoft, — прим. Indicator.Ru) немного снизили количество ошибок. Но сказать, что задача была решена, нельзя, — рассказал Indicator.Ru руководитель отдела распознавания речи «Центра речевых технологий» (ЦРТ) Александр Затворницкий. — Началось нечто, напоминающее гонку. Кто впервые дойдет до уровня понимания человека. Кто первым закроет эту задачу, решит ее настолько хорошо, насколько ее может решить человек». По словам Затворницкого, победить в «гонке распознавания» компании Microsoft отчасти помог метод, предложенный «Центром распознавания речи». Помог на полпроцента. «Метод, которыми они взяли последний барьер — 0,3% из 0,4% ошибок, — это метод, который предложили мы в прошлом году», — рассказал Затворницкий.

«Коллеги из Питера (ЦРТ, — прим. Indicator.Ru) использовали метод построения нейронных сетей для решений одной из задач и применили его несколько иначе, о чем и написали в своей научной работе. Возможно, эта идея понравилась специалистам из Microsoft Research, они ее творчески переосмыслили и пошли дальше», — рассказала корреспонденту Indicator.Ru представитель Microsoft Александра Паришева. В компании при этом подчеркнули, что в российских СМИ роль питерских ученых в достижениях американской компании была несколько преувеличена и к разработке самой технологии распознавания речи предложенный алгоритм отношения не имеет.

«Конечно, специалисты из ЦРТ добились значительных успехов в области распознавания речи. В своей научной работе наши коллеги из научно-исследовательского подразделения Microsoft Research сослались на работу питерских ученых, там 68 ссылок и одна из них — на работу российских ученых», — рассказала представитель Microsoft.

Примените это немедленно!

«У ученых нет ни планов, ни четких задач создать продукт, это все уже следующая стадия. Они что-то изобретают ради изобретения. Где это будет применять, думают уже другие люди», — рассказала о работе в Microsoft Research Паришева. По словам специалистов, технология распознавания речи может применяться в различных областях, «призванных упростить нашу жизнь, помочь людям с ограниченными возможностями и сложностями в обучении, а также наладить коммуникацию между представителями разных стран и культур».

В повседневной жизни эти технологии используются для управления системами в автомобиле, что позволяет не отвлекаться и повышает безопасность вождения. С помощью голоса можно совершать звонки, включать радио, прокладывать путь с помощью GPS, повышать температуру в салоне. Существуют также умные дома и умные офисы, где благодаря речевым командам можно управлять освещением, климатом и безопасностью. Персональные устройства сегодня тоже оснащены речевыми инструментами и виртуальными ассистентами, которые помогают не только управлять смартфоном и задавать поисковые запросы, но синхронно переводить речь собеседника в реальном времени в Skype.

Также система может применяться в здравоохранении. В Microsoft подчеркнули, что разработка будет полезна в различных сферах, начиная от автоматической транскрипции врачебных документов для ускорения документооборота в клиниках, до помощи больным с различными дисфункциями. «К примеру, были проведены исследования, в которых пациенты с артериовенозной мальформацией, страдающие нарушениями памяти на фоне проведенной операцией на мозге, показывали улучшение после упражнений с распознаванием и переводом речи в письменный текст. Также людям с ограниченными возможностями помогает коммуницировать с окружающим миром», — рассказали в компании.

«Это система для распознавания спонтанных телефонных диалогов — ситуаций, когда человек заинтересован в том, чтобы микрофон был как можно ближе ко рту. Когда вы звоните в контакт-центр и система спрашивает, что вы хотите. Речевая аналитика в контакт-центрах — важная область применения. Доволен ли клиент работой оператора, все ли оператор сказал правильно и так далее», — рассказал Indicator.Ru Затворницкий.

На сегодняшний день система разработана для распознавания только английского языка, поэтому в случае с другими языками, количество ошибок при анализе речи зависит от каждого конкретного случая. «Возможно, для работы с другим языком потребуется лишь обучить нейронную сеть на корпусе этого языка. А может придется дорабатывать систему для учета специфики языка. Для некоторых языков адаптация системы неизбежна, так как для них требуется определение дополнительных свойств, например тональности в случае китайского языка», — рассказали представители компании Microsoft.

В России системами распознавания речи занимается, в частности, компания «Яндекс». «Технология SpeechKit устроена таким образом, что, чем больше данных для обучения используется, тем лучше качество. Распознавание речи пользуется популярностью среди аудитории сервисов "Яндекса" и обрабатывает миллионы голосовых запросов ежедневно. Таким образом, нам удалось получить качество распознавания русской речи близкое к человеческому, то есть на уровне 95%», — заявили в компании.