Нейронную сеть научили распознавать лица на видео по одной фотографии
Российские ученые предложили новый метод распознавания людей на видео с помощью глубокой нейронной сети. Подход не требует большого числа фотографий, он позволяет значительно повысить точность распознавания по сравнению с ранее известными аналогами, даже если доступна всего одна фронтальная фотография человека. Результаты работы опубликованы в журналах Expert Systems with Applications (1) и Optical Memory and Neural Networks (2).
В последнее время лучше всего с распознаванием лиц справляются сверхточные нейронные сети. Для того, чтобы такая система лучше работала, ей нужно показать как можно больше образцов фотографий. В процессе обучения система вычленяет ключевые признаки и строит между ними связи, а затем использует полученные знания для того, чтобы узнавать неизвестные образы. Для контролируемых данных, то есть при одинаковом положении в кадре, одинаковом освещении и так далее, точность алгоритмов уже давно достигла результатов, сопоставимых с человеческими. А вот добиться высокой точности при распознавании видеоданных, которые собираются в неконтролируемых условиях с варьируемым освещением, ракурсом и размером все еще непросто.
Читайте также
Для того, чтобы решить эту задачу, исследователи из Высшей школы экономики использовали теорию нечетких множеств и теорию вероятности. Они разработали алгоритм, который позволяет повысить точность идентификации лиц по видео на 2-6% по сравнению с ранее проведенными экспериментами.
В качестве тестовой базы исследователи использовали несколько традиционных наборов данных для оценки методов распознавания лиц на видео – IJB-A (IARPA Janus Benchmark A) и YTF (YouTube Faces). Эти наборы включают в себя находящиеся в свободном доступе изображения известных людей (актеров, политиков, общественных деятелей), которые собирались из открытых источников в неконтролируемых условиях в разное время. Алгоритм должен был распознать лица на видео с YouTube, используя в качестве образцов несколько фотографий тех же людей из другого набора данных – LFW (Labeled Faces in the Wild). В LFW использовалось более высокое разрешение, а сами фотографии были сделаны в разное время, начиная с 1970-х до 2010-х годов.
Новый подход использует информацию о том, как эталонные фотографии связаны между собой, то есть насколько они близки или далеки друг от друга в математической модели. В этом случае связь между похожими людьми меньше, между непохожими — больше. Знание того, насколько люди друг от друга отличаются, позволяет системе скорректировать ошибки в процессе распознавания видео кадров.
«Алгоритм оценивает, насколько один кадр ближе к одному человеку, другой — к другому. Затем сравнивает, насколько похожи эти два человека между собой. После чего добавляет третьего человека и оценивает, с кем он ближе — с первым или вторым. Исходя из этой близости, еще раз корректирует ошибки распознавания», — говорит профессор Савченко.
Алгоритм может работать на стационарных компьютерах и, кроме этого, специалисты разработали и прототип приложения под Android, которое определяет возраст и пол людей на фотографиях и видео.
Понравился материал? Добавьте Indicator.Ru в «Мои источники» Яндекс.Новостей и читайте нас чаще.
Пресс-релизы о научных исследованиях, информацию о последних вышедших научных статьях и анонсы конференций, а также данные о выигранных грантах и премиях присылайте на адрес science@indicator.ru.