AlphaDou: 高性能端到端斗地主AI集成竞标
本文研究了一类特殊的亚洲纸牌游戏斗地主,针对其巨大的行动空间提出了一种名为组合Q学习的新方法,利用两阶段网络和池化操作提取基本行动之间的关系,结果表明比传统的Q学习和A3C等算法更优,并使用对抗训练方法仅凭游戏规则训练出了可与人类媲美的代理。
Jan, 2019
利用深度神经网络,行动编码和并行执行器等方法,本文提出了一个名为DouZero的博弈AI系统,目标是在三人斗地主游戏中解决人工智能挑战。通过集成传统蒙特卡罗方法,DouZero在数天的训练后就表现出色,并在Botzone排行榜上排名第一。本文展示了即使在行动空间复杂的情况下,经典的 蒙特卡罗方法 也能带来突破。
Jun, 2021
本文介绍 Meowjong,这是一款使用深度强化学习技术的三人日本麻将Sanma制作的AI。作者定义了一种紧凑而信息丰富的二维数据结构,用于编码Sanma游戏中可观察到的信息,并使用卷积神经网络对Sanma的动作进行预训练,并通过自我对弈增强了主要动作模型的性能,最终取得了在Sanma游戏中的领先地位。
Feb, 2022
PerfectDou是一个基于actor-critic框架和perfect information distillation技术的DouDizhu AI系统,采用近端策略优化和广义优势估计以并行训练的方式训练。实验证明PerfectDou能够在DouDizhu游戏中击败所有现有的AI程序并达到最先进的性能水平。
Mar, 2022
本论文介绍了在中国十分流行的卡牌游戏斗地主中引入强化学习以及对抗性网络,旨在提高斗地主人工智能的表现,并将系统实现了状态的全面探索,从而在斗地主Botzone排行榜上获得了最高排名。
Apr, 2022
本文介绍了 AlphaZero 和 MuZero 的算法,探究了它们的局限性,并提供了新的瓶颈测试方法以解决 AlphaZero 在某些博弈游戏中学习能力不足的问题,并发现 AlphaZero 在解决 nim 游戏时会面临严重的问题。
May, 2022
本文介绍了一种基于加强学习技术的 AI 程序 DanZero,使用分布式框架训练其在类似于斗地主但更复杂的关打游戏中的表现,表现出出色的性能。
Oct, 2022
利用人工智能在复杂的卡牌游戏关单中开发了一个名为DanZero的AI程序,通过强化学习技术和分布式训练框架,以及采用预训练模型来改善性能,DanZero表现出卓越的性能。
Dec, 2023
本研究中,我们将残差网络引入到DouZero模型中,探索不同的架构设计并进行多角色测试,发现该模型在相同训练时间内显著提高了胜率。我们还引入了一个呼叫得分系统来辅助代理决定是否成为地主,通过这些改进,我们的模型始终优于现有版本的DouZero甚至有经验的人类玩家。
Mar, 2024