5*5 多人围棋的深度强化学习
该研究介绍了使用新的 AlphaZero 算法以及无领域知识的方式进行强化学习,让计算机在三个领域的棋类游戏:围棋、象棋和将棋中均以超级专业水平进行游戏。
Dec, 2017
本文综述分布式深度强化学习的研究进展,对比不同方法、研究关键因素,回顾工具箱的发展,并且基于综述开发出多人、多智能体分布式深度强化学习工具箱,并在复杂游戏环境中进行验证。最后指出未来挑战和发展方向。
Dec, 2022
本文介绍了一个名为 Ranked Reward(R2)的算法,它能够将敌对自我博弈用于单人游戏,并将其应用于维度为 2 和 3 的装箱问题,证明该算法胜过基本的蒙特卡罗搜索、启发式算法、整数规划求解器,并对排名奖励机制进行了分析。
Jul, 2018
本文提出了一种深度强化学习框架,从系统和算法两个角度来解决 Multi-player Online Battle Arena(MOBA)1v1 游戏中复杂动作控制的问题,通过包括控制依赖解耦、动作遮罩、目标注意力和双剪辑 PPO 等多种新颖策略,训练出可以在 MOBA 游戏王者荣耀中打败顶级人类选手的 AI 代理 Tencent Solo。
Dec, 2019
本文研究了一类特殊的亚洲纸牌游戏斗地主,针对其巨大的行动空间提出了一种名为组合 Q 学习的新方法,利用两阶段网络和池化操作提取基本行动之间的关系,结果表明比传统的 Q 学习和 A3C 等算法更优,并使用对抗训练方法仅凭游戏规则训练出了可与人类媲美的代理。
Jan, 2019
利用人工智能在复杂的卡牌游戏关单中开发了一个名为 DanZero 的 AI 程序,通过强化学习技术和分布式训练框架,以及采用预训练模型来改善性能,DanZero 表现出卓越的性能。
Dec, 2023
本文介绍了 ReBeL,它是一种通用的强化学习和搜索框架,并在任何两人零和博弈中证明收敛于纳什平衡。同时,使用比任何先前的扑克 AI 更少的领域知识,ReBeL 在无限制德州扑克中实现了超人类性能。
Jul, 2020