Jun, 2021

DouZero:自我对战深度强化学习掌握斗地主

TL;DR利用深度神经网络,行动编码和并行执行器等方法,本文提出了一个名为DouZero的博弈AI系统,目标是在三人斗地主游戏中解决人工智能挑战。通过集成传统蒙特卡罗方法,DouZero在数天的训练后就表现出色,并在Botzone排行榜上排名第一。本文展示了即使在行动空间复杂的情况下,经典的 蒙特卡罗方法 也能带来突破。