С компьютером и фишками: искусственный интеллект играет в покер против людей
Почему искусственному интеллекту сложнее играть в покер, нежели в шахматы или го, когда в игру включатся нейросети и сможет ли искусственный интеллект выиграть у людей, выяснял Indicator.Ru.
Один на один с машиной
С 11 января в Casino Rivers в Питтсбурге (Пенсильвания) проходит покерный турнир Brain vs AI (мозг против искусственного интеллекта), в котором четыре профессиональных игрока противостоят компьютерной программе Libratus, разработанной учеными из Университета Карнеги-Меллон. Все участники играют в разновидность покера под названием безлимитный техасский холдем, причем каждая партия протекает один на один (хедз-ап). В отличие от игры с числом игроков больше двух, играть так проще, ведь возможных наборов информации в данном случае учитывать нужно меньше. Однако, чтобы исход соревнований не оказался случайностью, а был связан с эффективностью программы, будут сыграны дубликаты матчей. Другими словами, игрок А получает карты, которые получил компьютер в партии с игроком В и наоборот. Оба матча проходят в одно и то же время, один в изолированной комнате, второй — на публике в казино.
Как играем?
В покере цель игрока — забрать «банк», сформированный ставками других участников игры. В начале партии на руках у игрока (в зависимости от вариации покера) имеется четыре либо пять карт, из которых он убирает в сброс две или три карты соответственно, и в ходе одной или нескольких раздач карт игрок пытается собрать у себя наиболее выигрышную комбинацию. В большинстве вариаций покера между раздачами происходит так называемая «торговля»: в зависимости от игрового положения или стратегии игроки поднимают ставку или сбрасывают карты, отказываясь от дальнейшей игры.
В отличие от шахмат и го, игроки не обладают полной информацией о положении своих противников, так как не видят их карт. Тем не менее покер можно рассматривать с точки зрения математики: чтобы увеличить свою прибыль за покерным столом, некоторые люди учатся следить за тем, какие карты остаются в колоде, и считать количество карт, которые могли бы приблизить их к возможной победе. На языке покера это называется «считать ауты», то есть подсчитывать карты в колоде, которые, при наличии у игрока практически готовой комбинации, помогут ему эту комбинацию дополнить.
Самая популярная вариация игры в покер — техасский холдем. Помимо нее существуют и другие разновидности с некоторыми отличиями в правилах и стратегиях. К ним относятся Омаха, Стад, Дро-покер, Лоуболл и другие, в которые играют как на мировых сериях, так и в узком кругу с друзьями. Распространенность техасского холдема объясняется достаточно простыми правилами и тем, что соотношение открытой и скрытой информации оптимальное. Существует несколько модификаций покера, в том числе и техасского холдема: лимитированный, безлимитный и с пот-лимитом. Они различаются между собой размерами возможных ставок: в первом случае их размер фиксирован, во втором — максимальная ставка ограничивается количеством фишек, имеющихся у игрока, а в третьем — на размер ставки может влиять только размер «банка» (сумма всех ставок), то есть максимальный лимит ставки — текущий размер «банка».
Оптимальной стратегии игры в покер не существует точно так же, как и нет идеальной тактики в шахматах и го. В покере есть и чисто человеческий фактор: игроки иногда прибегают к стратегическим приемам, таким как блеф. Также широко используются вероятностный подход и подсчет шансов банка. Поэтому большое разнообразие возможных стратегий уменьшает шансы на победу искусственного разума.
Матч-реванш
Программы, которые умеют играть в покер, были придуманы достаточно давно и варьируются от любительских до профессиональных. Тем не менее для компьютера победа над чемпионами в покер пока еще остается вызовом. В 2015 году в ходе аналогичного турнира Brain vs AI компьютерная программа Claudico, которую также создали исследователи из Университета Карнеги-Меллон, не смогла обыграть людей. Двое из них, Джейсон Лес и Дун Ким, участвуют и в текущем турнире. Тогда один из игроков, Бьорн Ли, сказал: «Мы понимаем, что в один прекрасный день искусственный интеллект нас все-таки обгонит. Но на данный момент на вершине все еще остаются люди». Турнир, который идет сейчас, — попытка ученых взять реванш. Спонсоры игры считают, что обновленная программа имеет гораздо больше шансов сорвать банк, чем Claudico, но и игроки не готовы сдаваться.
Мы не пишем стратегию, мы пишем алгоритм, который определяет стратегию.
Libratus, по словам профессора информатики Туомаса Сэндхольма, руководителя команды разработчиков программы, совершает гораздо больше вычислений, чем предшествующие покер-боты. «Мы не пишем стратегию, мы пишем алгоритм, который определяет стратегию», — пояснил ученый. В отличие от Claudico, Libratus также будет использовать сетевые мосты, которые помогут проводить вычисления в режиме реального времени, и, возможно, Libratus сможет успешно блефовать.
В 2016 году компьютерная программа, однако, перешагнула рубеж на пути к победе над человеком в сложной стратегической игре. Речь идет о разработке компании Deep Mind под названием Alpha Go и об игре го. Искусственная нейронная сеть смогла повторить триумф Deep Blue, победившего Гарри Каспарова в шахматы около 20 лет назад, и обыграть Ли Седоля, признанного одним из лучших игроков в го, в четырех из пяти возможных партий. Тем не менее программисты считают покер гораздо более сложной игрой, чем шашки, шахматы или го.
Читайте также
Илья Городецкий, комментатор покерных турниров, рассказал Indicator.Ru, что пока специалисты, создающие покерные программы, занимаются только одной разновидностью игры — техасским холдемом. «Возможно, именно потому, что техасский холдем — самый распространенный вид игры в покер, ему уделяют внимание разработчики и искусственного интеллекта, и так называемых покерных ботов. Больше года назад был создан бот, который играет в лимитный техасский холдем математически идеально, то есть на дистанции ни один человек не может его обыграть. Лимитная игра вообще является более просчитываемой с точки зрения математики из-за ограничений на размер ставки и поэтому первой стала в хорошем смысле слова жертвой компьютерных программ. Сейчас же бот играет против группы действительно сильных игроков в безлимитный техасский холдем, который просчитать намного сложнее. Что касается других разновидностей покера, программы в них просто не играют. Существуют жульнические боты, которые помогают людям играть, например, в Омаху, но это несколько другой тип программы, которая создается мошенниками с целью помочь людям обыгрывать других людей в Интернете. Что касается пот-лимитного холдема, то эта игра не настолько популярна, поэтому соответствующей программой вряд ли кто-то будет заниматься», — прокомментировал Городецкий. По мнению эксперта, в будущем наверняка будут создаваться нейросети, способные играть в другие разновидности покера, в первую очередь Омаха, которая находится на втором месте по популярности, пусть и с большим отрывом от техасского холдема.
Если компьютерный разум сможет одержать победу, разработку можно будет использовать и в других областях, не связанных с покером: в медицине, кибербезопасности или в военных целях. Пока машина показывает себя очень успешно.
P.S. На момент написания заметки Libratus обыгрывает трех из четырех игроков, выигрывает пока только Дун Ким.
Подписывайтесь на Indicator.Ru в соцсетях: Facebook, ВКонтакте, Twitter, Telegram.