通过策略搜索学习合作

Aug, 2014

Learning to Cooperate via Policy Search

Leonid Peshkin, Kee-Eung Kim, Nicolas Meuleau, Leslie Pack Kaelbling

TL;DR本文提出了一种基于梯度的分布式策略搜索方法，用于合作博弈中的部分可观测环境，比较了本地最优和纳什均衡的概念，实验结果表明该方法的有效性。

Abstract

cooperative games are those in which both agents share the same payoff structure. Value-based reinforcement-learning algorithms, such as variants of Q-learning, have been applied to learning cooperative games, bu

cooperative games value-based reinforcement learning policy search methods partially observable environments distributed policy-search method

发现论文，激发创造

在合作部分可观察游戏中通过搜索优化策略

本文提出了两种搜索技术，分别是单智能体搜索和多智能体共同知识搜索，在合作部分可观察游戏中应用，以提升合作智能体的性能。在 Hanabi 基准挑战问题中，两种技术均能大幅提高每个测试智能体的性能，并对使用 RL 训练的策略产生了新的最先进得分 24.61/25。

Dec, 2019

成功的成本共担：一种评估与学习多智能体协作指导与遵循策略的游戏

在协作目标导向的情境中，我们提出了一个具有挑战性的交互参考游戏，要求两名玩家在视觉和语言观察方面进行协调。我们展示了标准的 Proximal Policy Optimization (PPO) 设置在启发式伙伴行为的引导下能够获得较高的成功率，并且我们发现相互配对的神经伙伴确实在重复游戏时减少了测量到的联合努力，但与合理的启发式配对相比仍有改进的空间，这促使进一步探索协作互动中的成本分享方向的研究。

Mar, 2024

合作游戏的交互式逆强化学习

该研究探讨了如何设计自主智能体，使其在没有访问联合奖励函数的情况下能够有效地与潜在的次优合作伙伴进行合作。我们将这个问题建模为一个合作的、情节性的两个代理 Markov 决策过程。我们分析了该交互式两个代理场景中关于奖励函数的信息如何被获得，结果显示学习代理的策略对转移函数具有显著影响时，奖励函数可以被高效地学习。

Nov, 2021

关于回合制零和马尔可夫博弈的强化学习

本文提出了一种基于强化学习的方法，结合 “探索，策略改进和监督学习”，以找到与纳什均衡相关的价值函数和策略。通过实验证明了该方法在特定情况下可以在近似值方面找到纳什均衡。

Feb, 2020

多阶段强化学习任务的协作策略开发

本文提出了合作连续策略（CCP) 方法，可以让连续的代理合作解决长时间跨度的多阶段任务，在多个测试领域中，该方法成功地超越了一组简单策略，单一代理以及另一个顺序 HRL 算法。

May, 2022

多行为策略下的分布式策略评估

采用扩散策略，将全分布式协作强化学习算法应用于分布式网络，实现仅与直接相邻的智能体通信以改进他们对环境的预测能力，具有线性计算时间和内存占用的高效分布式策略，可应用于离线学习和连续学习，以减少预测误差的偏差和方差，实现全局最优解的学习。

Dec, 2013

合作人工智能的广义信念

本研究提出了一种基于信念空间的策略学习模型，可以在测试时间解码和适应新颖的规约，从而显著提高各种策略池中的特定反应的搜索和训练，同时增强智能体规约的可解释性和可解释性。

Jun, 2022

Shapley Q-value：一种解决全局奖励博弈的本地奖励方法

本研究介绍了一个合作游戏理论框架 (扩展凸性博弈 ECG)，提出了一个局部奖励方法 (Shapley Q-value)，并用其作为每个代理的评估函数，提出了一个 MARL 算法 SQDDPG，并在导航，猎物与捕食者和交通路口等环境进行了实验，结果显示其相较于目前现有算法具有更快的收敛速度和公平的分配。

Jul, 2019

多智能体软 Q 学习

研究了在连续多智能体博弈中应用策略梯度方法时出现的相对过度泛化问题，并提出了多智能体软 Q 学习方法来解决这个问题。与现有方法 MADDPG 相比，该方法可实现更好的多智能体协作任务协调，达到联合行为空间中更好的局部最优。

Apr, 2018

合作博弈理论下的开放式即兴团队合作

建立一个从合作博弈理论的视角解释图神经网络在图基策略学习中使用的联合 Q 值表示法，并基于该理论提出了一种新的算法来补充 GPL 中被忽视但有助于学习的关键特征。通过实验证明了该算法在动态团队构成中与 GPL 的性能比较的正确性。

Feb, 2024