Алгоритм Google стал гроссмейстером по игре в го, три дня поиграв сам с собой
Сотрудники подразделения Google DeepMind разработали новую версию алгоритма AlphaGo Zero для игры в го, которая после трех дней самообучения обыграла свою предыдущую версию. Исследование опубликовано в Nature.
Усовершенствованная версия AlphaGo Zero способна к самообучению без анализа партий, сыгранных человеком. Алгоритм самостоятельно вырабатывает лучшую стратегию, просто сыграв миллионы раз сам с собой. Самые удачные варианты поведения остаются в алгоритме.
Всего за три дня новый алгоритм победил все предыдущие версии AlphaGo, а после 40 дней он самостоятельно усвоил все принципы игры, которые люди искали на протяжении трех тысяч лет. По словам генерального директора DeepMind Демиса Хассабиса, программа стала настолько мощной, что «больше не ограничивается пределами человеческого знания». Не нуждаясь в помощи со стороны человека, программа может вырабатывать собственные варианты успешной стратегии.
«Я думаю, что в будущем подобные самообучаемые алгоритмы помогут решить множество проблем. Например, придумать за несколько недель лекарство, на разработку которого у медиков ушли бы десятки лет», — отметил Хассабис.
Программа AlphaGo удивила весь мир, обыграв лучшего в мире игрока в го в мае 2017 года. Раньше считалось, что машине не под силу справиться со старинной сложной игрой, требующей, помимо логики, применение интуиции, творческого и стратегического мышления.