В Оксфорде создали программу, читающую по губам лучше людей-профессионалов
Компьютерные специалисты из Оксфордского университета и компании DeepMind разработали программу, способную распознавать речь «с губ» лучше, чем люди-профессионалы. Подробности можно узнать на сайте университета.
Система искусственного интеллекта Watch, Attend and Spell (WAS) работает на основе распознавания образов и машинного обучения. Перед началом работы ей показали более пяти тысяч часов телепрограмм. За это время ведущие произнесли более 118 000 предложений с общим словарем в 17 500 слов.
После обучения разработчики сравнили эффективность работы системы и профессиональных переводчиков. Люди смогли верно распознать 12% слов, в то время как программа — 50%.
«Чтение с губ — это впечатляющий и сложный в освоении навык, и WAS создана, чтобы помочь переводчикам, например предлагая им варианты на утверждение. Есть и другие применения: диктовать указания смартфону в шумной обстановке, озвучивать немые фильмы, различать речь нескольких человек, говорящих одновременно, и улучшать работу систем распознавания речи в целом», — отметил один из авторов разработки, аспирант Оксфордского университета Джун Сон Чанг.