Нейросеть может распознать звучание каждого пикселя на видео
Искусственный интеллект научился распознавать на видео отдельные музыкальные инструменты и изменять звуковую дорожку так, чтобы звучал только один из них. Пользователь может кликнуть на нужный инструмент и из всего ансамбля услышать только его. Препринт статьи с описанием разработки доступен на сайте arXiv.org.
Ученые из Массачусетского технологического института научили искусственную нейросеть находить звучание отдельных музыкальных инструментов в видеозаписях, на которых звучит несколько инструментов. Кроме того, программа может распознавать, какая часть звуковой дорожки относится к каждому из них. Разработка получила название «PixelPlayer» — подразумевается, что алгоритм распознает как «звучит» каждый пиксель видео.
Для того, чтобы обучить искусственный интеллект, ученые «показали» программе более 60 часов видео, на которых несколько людей играли на различных музыкальных инструментах. Сначала ученые вручную помечали, какие пиксели и какая часть звуковой дорожки относятся к каждому инструменту, а затем алгоритм научился делать это сам. В результате программа может распознавать около 20 самых популярных инструментов.
Для пользователя интерфейс алгоритма выглядит следующим образом: во время просмотра видео с музыкальным ансамблем можно нажать на любую точку изображения и звуковая дорожка изменится соответствующим образом. Например, если на видео два человека играют на скрипке и гитаре, и пользователь нажимает на скрипку, все остальные звуки станут тише, а мелодия скрипки — громче. Можно нажимать не только на инструменты, а вообще на любой пиксель видео. Если нажать, например, на стену, то никакого звука не будет.
Описание проекта можно почитать на сайте авторов. Там же выложены демонстрационные видео, на которых можно опробовать действие программы. По словам разработчиков, исходный код алгоритма тоже вскоре появится на странице.
Понравился материал? Добавьте Indicator.Ru в «Мои источники» Яндекс.Новостей и читайте нас чаще.