协作和竞争同时进行的零射击互动游戏的掌握

Feb, 2024

协作和竞争同时进行的零射击互动游戏的掌握

Mastering Zero-Shot Interactions in Cooperative and Competitive Simultaneous Games

Yannik Mahlau, Frederik Schubert, Bodo Rosenhahn

TL;DR利用自我对弈和规划相结合的方法，通过模拟自我对弈学习有限理性智能体，提出了 Albatross 算法，在同时进行的游戏中实现合作和竞争，达到了较好的效果。

Abstract

The combination of self-play and planning has achieved great successes in sequential games, for instance in Chess and Go. However, adapting algorithms such as AlphaZero to →

self-play planning simultaneous games albatross bounded-rational agents

发现论文，激发创造

公正博弈：强化学习的挑战

本文介绍了 AlphaZero 和 MuZero 的算法，探究了它们的局限性，并提供了新的瓶颈测试方法以解决 AlphaZero 在某些博弈游戏中学习能力不足的问题，并发现 AlphaZero 在解决 nim 游戏时会面临严重的问题。

May, 2022

Any-Play: 零样本协同的内在增强

通过 inter-algorithm cross-play 评估了协作人工智能算法的表现，提出了一种多智能体扩展的 intrinsic reward 方法 Any-Play 学习，在合作卡牌游戏 Hanabi 中表现为最先进的协作算法。

Jan, 2022

零样本协调的 “其他 - 玩耍

本文探讨了如何通过使用 other-play 算法增强 self-play 算法，以解决在多智能体协同环境中遇到未知合作伙伴时的问题，并以 Hanabi 卡牌游戏为例展示了该算法的实验结果。

Mar, 2020

Hanabi 中零样本协作的 K 级推理

通过同步训练所有层次的简单 k 级别推理适应，我们可以在 Hanabi 中获得具有竞争力的零射协调和特定的临时团队玩法表现，包括与类人代理机器人配对。

Jul, 2022

走向小样本协同：重新审视《汉尼拔》游戏中的即兴团队配合挑战

合作式多智能体强化学习与零样本协同在近年来引起了极大的关注。本文通过构建一个基于合作多智能体游戏 Hanabi 的框架，在使用最新零样本协同算法时探究了多智能体强化学习方法的适应性，并发现在大多数情况下，顺序独立强化学习代理（IQL）与最新的零样本协同算法 Off-Belief Learning（OBL）相比，在适应性上表现相似。这一发现引发了一个有趣的研究问题：如何设计具有高零样本协同性能和快速适应未知伙伴的多智能体强化学习算法。通过研究不同超参数和设计选择对当前多智能体强化学习算法的适应性的作用，我们的实验表明，控制训练数据多样性和优化过程的两类超参数对 Hanabi 代理的适应性具有重要影响。

Aug, 2023

加速围棋自我博弈学习

通过改进 AlphaZero 的过程和架构，我们在 Go 中极大地加速了自我博弈学习，与类似方法相比，计算量减少了 50 倍。

Feb, 2019

使用通用增强学习算法通过自我对弈掌握国际象棋和将棋

该研究介绍了使用新的 AlphaZero 算法以及无领域知识的方式进行强化学习，让计算机在三个领域的棋类游戏：围棋、象棋和将棋中均以超级专业水平进行游戏。

Dec, 2017

基于策略自竞争的规划问题解决方法

提出了 GAZ 'Play-to-Plan'（GAZ PTP）算法，并在两个组合优化问题，旅行商问题和工作车间调度问题上，表现出了比 GAZ 的单人游戏变体更好的效果，而且只需用一半的搜索模拟预算。

Jun, 2023

使用自我博弈的近乎最优强化学习

本文提出了楽观的 Nash Q-learning 算法，并使用了新的 Nash V-learning 算法，解决了在马尔可夫博弈环境中的奖励学习优化问题，且这个算法的采样复杂度比现有算法还要低.

Jun, 2020

基于深度强化学习和搜索算法的不完全信息博弈组合

本文介绍了 ReBeL，它是一种通用的强化学习和搜索框架，并在任何两人零和博弈中证明收敛于纳什平衡。同时，使用比任何先前的扑克 AI 更少的领域知识，ReBeL 在无限制德州扑克中实现了超人类性能。

Jul, 2020