- 走向小样本协同:重新审视《汉尼拔》游戏中的即兴团队配合挑战
合作式多智能体强化学习与零样本协同在近年来引起了极大的关注。本文通过构建一个基于合作多智能体游戏 Hanabi 的框架,在使用最新零样本协同算法时探究了多智能体强化学习方法的适应性,并发现在大多数情况下,顺序独立强化学习代理(IQL)与最新 - 花火》多人游戏中临时组队合作的关键在于行为差异
研究通过层次聚类和皮尔逊相关性分析证实了重新学习(RL)的智能体在掌握单一策略的同时也能够利用超参数部署不同策略,且行为差异越大,协同失败的越明显;同时,该研究也对解决多人游戏中的临时协同问题提供了改善理解。
- Hanabi 中零样本协作的 K 级推理
通过同步训练所有层次的简单 k 级别推理适应,我们可以在 Hanabi 中获得具有竞争力的零射协调和特定的临时团队玩法表现,包括与类人代理机器人配对。
- ICML作为终身学习现实场景的持续协调
本研究提出了一个基于 Hanabi 的多智能体生涯学习测试平台,研究了最新的多智能体强化学习算法,对限制的内存和计算权衡性能以及对超量训练预测的影响,证明了我们的代理可以在没有任何其他假设的情况下良好地与未见代理协调。
- 零样本协调的 “其他 - 玩耍
本文探讨了如何通过使用 other-play 算法增强 self-play 算法,以解决在多智能体协同环境中遇到未知合作伙伴时的问题,并以 Hanabi 卡牌游戏为例展示了该算法的实验结果。
- 深度多智能体强化学习的简化行动解码器
该研究提出了一种基于深度多智能体强化学习方法,即 Simplified Action Decoder(SAD),它通过利用集中式训练阶段解决了训练过程中策略非常难以观察的问题,从而在 Hanabi 挑战赛的部分元素中,建立了一个新的 SOT - 汉拿破仑挑战:人工智能研究的新前沿
提出将 Hanabi 游戏作为新的挑战领域来驱动人工智能研究,强调需要发展针对其他代理者信念和意图的理论推理新技术,并介绍了开源的 Hanabi 游戏学习环境以及当前最先进技术的性能评估实验框架。
- 深度多智能体强化学习的贝叶斯行动解码器
使用 Bayesian action decoder(BAD)的公开信念马尔可夫决策过程(public belief MDP)算法,成功在 Hanabi 卡牌游戏中超越了所有以前发表的学习方法和手动编写方法,创立了新的最先进水平。
- 汉纳比 2018 CIG 比赛进化代理
通过基于遗传算法构建基于规则的代理程序,本文针对获得产业重要奖项并受到学术界关注的合作式卡牌游戏 Hanabi 在 CIG 2018 会议上进行了两轨的比赛,成功优于以往的成绩表现。