DouRN: 通过残差神经网络提升 DouZero
利用深度神经网络,行动编码和并行执行器等方法,本文提出了一个名为 DouZero 的博弈 AI 系统,目标是在三人斗地主游戏中解决人工智能挑战。通过集成传统蒙特卡罗方法,DouZero 在数天的训练后就表现出色,并在 Botzone 排行榜上排名第一。本文展示了即使在行动空间复杂的情况下,经典的 蒙特卡罗方法 也能带来突破。
Jun, 2021
本论文介绍了在中国十分流行的卡牌游戏斗地主中引入强化学习以及对抗性网络,旨在提高斗地主人工智能的表现,并将系统实现了状态的全面探索,从而在斗地主 Botzone 排行榜上获得了最高排名。
Apr, 2022
本文介绍了一种基于加强学习技术的 AI 程序 DanZero,使用分布式框架训练其在类似于斗地主但更复杂的关打游戏中的表现,表现出出色的性能。
Oct, 2022
利用人工智能在复杂的卡牌游戏关单中开发了一个名为 DanZero 的 AI 程序,通过强化学习技术和分布式训练框架,以及采用预训练模型来改善性能,DanZero 表现出卓越的性能。
Dec, 2023
本文研究了一类特殊的亚洲纸牌游戏斗地主,针对其巨大的行动空间提出了一种名为组合 Q 学习的新方法,利用两阶段网络和池化操作提取基本行动之间的关系,结果表明比传统的 Q 学习和 A3C 等算法更优,并使用对抗训练方法仅凭游戏规则训练出了可与人类媲美的代理。
Jan, 2019
PerfectDou 是一个基于 actor-critic 框架和 perfect information distillation 技术的 DouDizhu AI 系统,采用近端策略优化和广义优势估计以并行训练的方式训练。实验证明 PerfectDou 能够在 DouDizhu 游戏中击败所有现有的 AI 程序并达到最先进的性能水平。
Mar, 2022
本文重新探讨了残差算法在无模型和有模型强化学习中的应用,提出了双向目标网络技术来稳定残差算法,在 DeepMind 控制套件基准测试中,得到了明显优于基准 DDPG 的残差版本,同时,在模型为基础的规划中,本研究发现残差算法是解决分布不匹配问题的有效方法,与现有的 TD($k$)方法相比,我们的基于残差的方法对模型做出了更弱的假设,提高了性能。
May, 2019
使用搜索算法和深度强化学习,本文提出并分析了使用 AlphaZero 和 Descent 算法自动学习多人版围棋。进一步展示了搜索算法和深度强化学习提高了棋局水平的结果。
May, 2024
本文介绍了一种名为 MuZero 的深度模型强化学习算法,研究其深度学习模型的学习目标和用于策略改进的实用性,结果表明 MuZero 所学模型不能有效地推广到评估未知的策略,这限制了我们使用该模型进行计划进一步改善当前策略的程度。
Jun, 2023