Искусственный интеллект победил лучших игроков в покер
Компьютер обыграл в покер четырех профессиональных игроков, выиграв фишек на сумму $1,7 млн в ходе трехнедельного матча-реванша в питтсбургском казино, сообщает The Guardian.
Создатели программы (искусственного интеллекта, названного Libratus) рассказали, что совсем не были уверены в ее победе: «Международные букмекерские конторы ставили один к четырем, что люди одержат победу». «Эта задача столь огромна и сложна, что долгое время она оставалась недоступной для разработчиков искусственного интеллекта», — рассказал один из ученых, профессор Университета Карнеги-Меллон Туомас Сэндхолм.
«Мы не говорили Libratus, как играть в покер. Мы дали ему правила и сказали "учись сам"», — продолжил Санхолм. Программа начала играть наугад, но после триллионов партий она улучшила свою игры и нашла выигрышную стратегию. По словам игроков, программа показывает необычный стиль игры, и им есть чему у нее поучиться.
В матче участвовали четверо профессиональных игроков: Джейсон Лес, Дун Ким, Дэниель МакОли и Джимми Чу, они играли в безлимитный техасский холдем хедз-ап, то есть каждая партия проходила один на один, а максимальная ставка ограничивалась количеством фишек. Компьютерные программы уже побеждали людей в таких играх, как го и шахматы, однако покер долго не поддавался, так как там игрокам приходится иметь дело с недостаточным количеством информации. Кроме того, программе пришлось научиться блефовать и верно толковать обманное поведение других игроков.
В 2015 году разработанная в университете программа Claudico проиграла трем из четырех игроков. Однако 80 000 разыгранных тогда рук оказалось недостаточно для статистически безупречного признания победы одной из сторон (человека или компьютера). Поэтому при подготовке к матчу-реваншу было принято решение увеличить общее число рук на 50%.
Новую систему искусственного интеллекта, Libratus, спроектировали специально для матча-реванша. Ученые разработали алгоритм, который рассчитывает стратегии для игр с неполной информацией. Для создания Libratus потребовалось около 15 миллионов часов суммарной работы ядер суперкомпьютера Bridges. Libratus отличается использованием равновесия Нэша, а также новой стратегией завершения игры: в отличие от Claudico, он будет не использовать очевидные ходы, а рассчитывать свое поведение каждый раз заново.