Один пиксель превратит лошадь в корабль для нейросети
Недавно созданный алгоритм, заменяя всего один пиксель, заставляет нейросети, предназначенные для распознавания образов, неправильно анализировать изображения. Авторы называют этот прием однопиксельной атакой (one pixel attack), он подходит для обмана искусственных нейросетей с большим количеством слоев. Статья с описанием алгоритма опубликована на сервере препринтов arXiv.org.
Искусственные нейросети — это компьютерные программы, принцип работы которых в отдельных аспектах напоминает функционирование мозга животных. Они оказались чрезвычайно мощными при решении задач некоторых классов, например, для классификации данных, аппроксимации функции по набору точек, сжатия информации и некоторых других. В частности, образы на изображениях они могут распознавать наравне с человеком.
Из-за отсутствия полноценной теории работы нейросетей причина их успеха при решении именно этих задач остается неясной. Более того, нет гарантии, что при работе нейросети не допускают ошибки, чем пользуются многие исследователи, пытаясь их обмануть. В новой работе описывается алгоритм, который находит на 1024-пиксельном изображении именно тот пиксель, который нужно изменить, чтобы обмануть нейросеть. Если перекрасить его в другой цвет, нейросеть неверно классифицирует изображение в 74% случаев, а изменение пяти пикселей повысило долю ошибки до 87%.
Используемая в статье нейросеть должна определить изображение в один из девяти классов: самолет, автомобиль, птица, кот, олень, лягушка, лошадь, корабль и грузовик. Изменение одного пикселя в среднем позволило отнести картинку к 2-3 неправильным классам. Изменение пяти пикселей позволило почти наверняка заставить нейросеть отнести изображение к любому из 9 классов. Например, изображение лошади можно замаскировать как корабль.
Изображения всего 32 на 32 пикселя, конечно, очень маленькие, и для картинок большего размера понадобится изменять больше пикселей. Однако сама задача подрыва работы нейросетей с использованием как можно меньшего искажения и впечатляющие результаты в этой области могут быть одновременно и интересными, и тревожными. В особенности это может нас беспокоить, поскольку пока у нас нет инструментов для того, чтобы эффективно противодействовать таким атакам, именно из-за отсутствия полного понимания работы нейросетей.