协作和竞争同时进行的零射击互动游戏的掌握
本文介绍了 AlphaZero 和 MuZero 的算法,探究了它们的局限性,并提供了新的瓶颈测试方法以解决 AlphaZero 在某些博弈游戏中学习能力不足的问题,并发现 AlphaZero 在解决 nim 游戏时会面临严重的问题。
May, 2022
通过 inter-algorithm cross-play 评估了协作人工智能算法的表现,提出了一种多智能体扩展的 intrinsic reward 方法 Any-Play 学习,在合作卡牌游戏 Hanabi 中表现为最先进的协作算法。
Jan, 2022
本文探讨了如何通过使用 other-play 算法增强 self-play 算法,以解决在多智能体协同环境中遇到未知合作伙伴时的问题,并以 Hanabi 卡牌游戏为例展示了该算法的实验结果。
Mar, 2020
通过同步训练所有层次的简单 k 级别推理适应,我们可以在 Hanabi 中获得具有竞争力的零射协调和特定的临时团队玩法表现,包括与类人代理机器人配对。
Jul, 2022
合作式多智能体强化学习与零样本协同在近年来引起了极大的关注。本文通过构建一个基于合作多智能体游戏 Hanabi 的框架,在使用最新零样本协同算法时探究了多智能体强化学习方法的适应性,并发现在大多数情况下,顺序独立强化学习代理(IQL)与最新的零样本协同算法 Off-Belief Learning(OBL)相比,在适应性上表现相似。这一发现引发了一个有趣的研究问题:如何设计具有高零样本协同性能和快速适应未知伙伴的多智能体强化学习算法。通过研究不同超参数和设计选择对当前多智能体强化学习算法的适应性的作用,我们的实验表明,控制训练数据多样性和优化过程的两类超参数对 Hanabi 代理的适应性具有重要影响。
Aug, 2023
该研究介绍了使用新的 AlphaZero 算法以及无领域知识的方式进行强化学习,让计算机在三个领域的棋类游戏:围棋、象棋和将棋中均以超级专业水平进行游戏。
Dec, 2017
提出了 GAZ 'Play-to-Plan'(GAZ PTP)算法,并在两个组合优化问题,旅行商问题和工作车间调度问题上,表现出了比 GAZ 的单人游戏变体更好的效果,而且只需用一半的搜索模拟预算。
Jun, 2023
本文提出了楽观的 Nash Q-learning 算法,并使用了新的 Nash V-learning 算法,解决了在马尔可夫博弈环境中的奖励学习优化问题,且这个算法的采样复杂度比现有算法还要低.
Jun, 2020
本文介绍了 ReBeL,它是一种通用的强化学习和搜索框架,并在任何两人零和博弈中证明收敛于纳什平衡。同时,使用比任何先前的扑克 AI 更少的领域知识,ReBeL 在无限制德州扑克中实现了超人类性能。
Jul, 2020