Качество сбора голосовых «отпечатков» научились автоматически отслеживать

На пресс-конференции в Японии

Issei Kato/Reuters

Российские исследователи разработали метод автоматического контроля качества голосовой записи. Алгоритм работает в режиме реального времени и устойчив к фоновому шуму от 10 дБ и выше, что позволяет использовать программу для сбора голосовой биометрии в повседневных условиях. Статья опубликована в журнале Measurement Techniques.

Разработки в сфере распознавания речи активно ведутся в последнее десятилетие и достигли серьезных успехов. Об этом говорит рост популярности голосовых помощников вроде Siri. По прогнозам британских аналитиков из Juniper Research, к 2023 году число умных колонок вырастет до восьми миллиардов. Для сравнения — в 2018 году их было 2,5 миллиарда.

Кроме разработчиков мобильных приложений, в развитии таких технологий заинтересованы компании, использующие верификацию пользователей по телефону, — call-центры и банки. Но пока широкому внедрению систем подтверждения личности человека по голосу препятствует множество факторов. Один из них — некачественная запись эталонных образцов. Довольно часто алгоритмы распознавания блокируют истинного пользователя из-за наличия помех в исходных записях.

Дело в том, что сбор речевой биометрии проходит в офисных помещениях, где много фонового шума. В условиях, когда банальный стук карандаша по столу мешает алгоритму правильно распознать голос говорящего, важно минимизировать влияние посторонних звуков. Разработка ученых из Высшей школы экономики и Нижегородского лингвистического университета позволяет снизить погрешность от случайных шумов до 2%.

«Организации заинтересованы в превентивных мерах — внедрении системы, которая автоматически определит, хорошая запись или плохая, пока клиент еще не ушел. Наша задача — создать эффективный метод, способный обрабатывать звук на любом оборудовании от бюджетного смартфона до ноутбука или офисного ПК в режиме реального времени», — подчеркнул профессор ВШЭ Андрей Савченко.

Исследователи предложили алгоритм, который сразу же разбивает записанную речь на короткие фрагменты и оценивает частоту основного тона в каждом из них. Программа измеряет стабильность произношения относительно среднего уровня и выводит результат на экран в виде цветной диаграммы.

Частота основного тона — это индивидуальная характеристика, присущая каждому человеку, при этом тон может становиться выше или ниже в зависимости от его эмоционального состояния, вызывая колебания основного тона.

За образец система берет первые фрагменты записи, оценивая их в 100 баллов. Если дальнейшие показатели более-менее стабильны, запись считается хорошей, если же наблюдается большой разброс показателей — бракованной. Брак может возникнуть из-за постороннего голоса, обладающего другой частотой тона.

Разработкой уже заинтересовался крупный российский банк, предоставив для предварительных испытаний 30 аудиозаписей из своей базы данных. В 93,3% случаев оценки программы совпали с оценками людей, проверяющих качество записи.

Понравился материал? Добавьте Indicator.Ru в «Мои источники» Яндекс.Новостей и читайте нас чаще.