Искусственный интеллект способен обучиться сотрудничеству
Компьютерные программы впервые смогли научиться взаимодействовать друг с другом в играх, где наилучший результат может быть достигнут только при согласованных действиях участников. Это намного более серьезное достижение для искусственного интеллекта, нежели овладеть навыком в играх с нулевой суммой (когда выигрыш достается за счет убытков соперников) или с бинарным исходом, таких как шахматы и шашки. Статья с описанием результатов выложена на сервер препринтов arXiv.org.
Специалисты по машинному интеллекту уделяли меньше внимания кооперативным играм, в которых игроки должны оптимизировать свою стратегию для максимизации выигрыша, даже если личную выгоду можно увеличить, «предавая» других. К таким играм относится, например, классическая дилемма заключенного. Два игрока могут получить мягкое наказание (условно, год тюрьмы), если будут отрицать вину. Однако если один из игроков предаст другого, то первого не накажут, а второй сядет на три года. Если же оба будут доносить друг на друга, то обоим «влепят двушечку». Если играть один раунд, то логично предать, тем не менее при неоднократном повторении выгоднее сотрудничать.
Джейкоб Крэндалл из американского Университета Бригама Янга и его коллеги решили разобраться, смогут ли компьютеры научиться играть в такие игры. Они сравнили результаты двух людей, двух программ и смешанных команд в нескольких кооперативных играх. Было протестировано 25 алгоритмов машинного обучения, однако добиться сотрудничества не удалось. Тогда авторы решили добавить возможность общаться игрокам фразами «Я меняю тактику», «Принимаю твое предложение», «Ты предал меня» и так далее — всего 19 предложений. Программам, в отличие от человека, приходилось на ходу соотносить эти фразы и их значения в течение игры.
На этот раз один из 25 алгоритмов под названием S# продемонстрировал впечатляющие результаты: всего за несколько ходов он научился кооперироваться с напарником в незнакомой игре. При этом к концу теста команда из двух искусственных интеллектов сотрудничала почти в 100% случаев, в то время как для людей этот показатель составил около 60%. «Алгоритмы машинного обучения научились быть преданными», — подытожил Крэндалл.