Jul, 2024

AlphaDou: 高性能端到端斗地主AI集成竞标

TL;DR通过修改深度蒙特卡洛算法框架,利用强化学习获得同时估计胜率和期望的神经网络模型,剪枝行动空间并基于胜率生成策略,在真实的斗地主环境中训练该模型实现了公开模型中最先进的水平。