Опубликовано 07 июля 2018, 13:07

Нейронную сеть научили распознавать лица на видео по одной фотографии

Российские ученые предложили новый метод распознавания людей на видео с помощью глубокой нейронной сети. Подход не требует большого числа фотографий, он позволяет значительно повысить точность распознавания по сравнению с ранее известными аналогами, даже если доступна всего одна фронтальная фотография человека. Результаты работы опубликованы в журналах Expert Systems with Applications (1) и Optical Memory and Neural Networks (2).

В последнее время лучше всего с распознаванием лиц справляются сверхточные нейронные сети. Для того, чтобы такая система лучше работала, ей нужно показать как можно больше образцов фотографий. В процессе обучения система вычленяет ключевые признаки и строит между ними связи, а затем использует полученные знания для того, чтобы узнавать неизвестные образы. Для контролируемых данных, то есть при одинаковом положении в кадре, одинаковом освещении и так далее, точность алгоритмов уже давно достигла результатов, сопоставимых с человеческими. А вот добиться высокой точности при распознавании видеоданных, которые собираются в неконтролируемых условиях с варьируемым освещением, ракурсом и размером все еще непросто.

Для того, чтобы решить эту задачу, исследователи из Высшей школы экономики использовали теорию нечетких множеств и теорию вероятности. Они разработали алгоритм, который позволяет повысить точность идентификации лиц по видео на 2-6% по сравнению с ранее проведенными экспериментами.

В качестве тестовой базы исследователи использовали несколько традиционных наборов данных для оценки методов распознавания лиц на видео – IJB-A (IARPA Janus Benchmark A) и YTF (YouTube Faces). Эти наборы включают в себя находящиеся в свободном доступе изображения известных людей (актеров, политиков, общественных деятелей), которые собирались из открытых источников в неконтролируемых условиях в разное время. Алгоритм должен был распознать лица на видео с YouTube, используя в качестве образцов несколько фотографий тех же людей из другого набора данных – LFW (Labeled Faces in the Wild). В LFW использовалось более высокое разрешение, а сами фотографии были сделаны в разное время, начиная с 1970-х до 2010-х годов.

Новый подход использует информацию о том, как эталонные фотографии связаны между собой, то есть насколько они близки или далеки друг от друга в математической модели. В этом случае связь между похожими людьми меньше, между непохожими — больше. Знание того, насколько люди друг от друга отличаются, позволяет системе скорректировать ошибки в процессе распознавания видео кадров.

«Алгоритм оценивает, насколько один кадр ближе к одному человеку, другой — к другому. Затем сравнивает, насколько похожи эти два человека между собой. После чего добавляет третьего человека и оценивает, с кем он ближе — с первым или вторым. Исходя из этой близости, еще раз корректирует ошибки распознавания», — говорит профессор Савченко.

Алгоритм может работать на стационарных компьютерах и, кроме этого, специалисты разработали и прототип приложения под Android, которое определяет возраст и пол людей на фотографиях и видео.

Понравился материал? Добавьте Indicator.Ru в «Мои источники» Яндекс.Новостей и читайте нас чаще.

Пресс-релизы о научных исследованиях, информацию о последних вышедших научных статьях и анонсы конференций, а также данные о выигранных грантах и премиях присылайте на адрес science@indicator.ru.

Теги #Российская наука #Открытия российских ученых #Нейросеть