Disney разработал искусственный интеллект, который переводит текст в анимацию

Walt Disney/Wikimedia Commons

Искусственный интеллект Disney генерирует оригинальные клипы на основе печатного текста уже не впервые. В прошлом году исследователи представили систему, которая использует пару нейронных сетей для создания видеоряда длиной в 32 кадра на основе команд типа «игра в гольф на траве». На этот раз ученые из Disney Research и Rutgers предложили модель, которая может создавать клипы на основе сценариев для фильмов. Модель представлена на сайте препринтов arXiv.

Чтобы обойти ограничения предыдущих моделей, авторы создали модульную нейронную сеть, состоящую из нескольких компонентов. Модуль синтаксического анализа выделяет основные предложения из описания сцен. Модуль обработки упрощает все еще сложные предложения. Модуль генерации анимации переводит команды в видеоряд, заимствуя образы из библиотеки, которая содержит 92 анимированных блока.

Обучение системы проводили на описаниях сцен из 996 сценариев с сайтов IMSDb, SimplyScripts и ScriptORama5.

Качество работы алгоритма измеряли при помощи BLEU-метода. Три сотрудника преобразовывали сценарий в мультипликацию по тому же механизму, что и модель, а исследователи оценивали различия в результатах работы машины и людей. Выяснилось, что качество преобразования (близость к ручной работе) достаточно сильно варьируются в зависимости от типа слова в предложении: c меньшей погрешностью алгоритм описывал эмоции.

Наконец, правдоподобность сгенерированных видеорядов испытали на 22 добровольцах. По пятибалльной шкале от «полностью несогласен» до «полностью согласен» 45,23% участников согласились с утверждением, что алгоритм корректно визуализирует текст. Около 60% согласились с тем, что алгоритм не добавляет в визуализацию действия, не упомянутые в сценарии.

Понравился материал? Добавьте Indicator.Ru в «Мои источники» Яндекс.Новостей и читайте нас чаще.