使用近似策略迭代解决共同收益博弈

AAAIJan, 2021

使用近似策略迭代解决共同收益博弈

Solving Common-Payoff Games with Approximate Policy Iteration

Samuel Sokota, Edward Lockhart, Finbarr Timbers, Elnaz Davoodi, Ryan D'Orazio...

TL;DR该论文提出一种名为 CAPI 的算法，它与 BAD 相似，结合了共同知识和深度强化学习，但与 BAD 不同，CAPI 优先考虑发现最优联合策略而非可扩展性。

Abstract

For artificially intelligent learning systems to have widespread applicability in real-world settings, it is important that they be able to operate decentrally. Unfortunately, decentralized control is difficult -- computing even an epsilon-optimal joint policy is a NEXP complete proble

decentralized control common knowledge deep reinforcement learning multi-agent optimal joint policies

发现论文，激发创造

深度多智能体强化学习的贝叶斯行动解码器

使用 Bayesian action decoder（BAD）的公开信念马尔可夫决策过程（public belief MDP）算法，成功在 Hanabi 卡牌游戏中超越了所有以前发表的学习方法和手动编写方法，创立了新的最先进水平。

Nov, 2018

在 q^π 可实现的 MDPs 中进行自信近似策略迭代，以实现高效的本地规划

论文提出了一种新的拟动态规划算法 Confident Approximate Policy Iteration (CAPI)，并将其应用于以局部模拟器为基础的规划问题中，该算法通过一系列策略来获得越来越精确的结果，在最小代价（内存和计算代价）下输出最优策略，同时该算法的查询复杂度较先进算法有很大的改善。

Oct, 2022

自适应近似策略迭代

本研究提出一种自适应近似政策迭代 (AAPI) 学习方案，其具有较好的理论保证，并基于在线学习技术只考虑价值函数，通过数据相关的自适应学习率和所谓的乐观损失预测相结合，可达到 $ ilde {O}(T^{2/3})$ 的遗憾上限，在许多应用领域中取得了令人瞩目的表现。

Feb, 2020

深度多智能体强化学习的简化行动解码器

该研究提出了一种基于深度多智能体强化学习方法，即 Simplified Action Decoder（SAD），它通过利用集中式训练阶段解决了训练过程中策略非常难以观察的问题，从而在 Hanabi 挑战赛的部分元素中，建立了一个新的 SOTA，提高了理解其他网络的能力。

Dec, 2019

在合作部分可观察游戏中通过搜索优化策略

本文提出了两种搜索技术，分别是单智能体搜索和多智能体共同知识搜索，在合作部分可观察游戏中应用，以提升合作智能体的性能。在 Hanabi 基准挑战问题中，两种技术均能大幅提高每个测试智能体的性能，并对使用 RL 训练的策略产生了新的最先进得分 24.61/25。

Dec, 2019

合作人工智能的广义信念

本研究提出了一种基于信念空间的策略学习模型，可以在测试时间解码和适应新颖的规约，从而显著提高各种策略池中的特定反应的搜索和训练，同时增强智能体规约的可解释性和可解释性。

Jun, 2022

带政策语言偏差的近似策略迭代：解决关系马尔可夫决策过程

研究大规模关系型马尔科夫决策过程（MDP）的政策选择方法，考虑一种近似政策迭代（API）的变体，用学习步骤在政策空间中替换通常的值函数学习步骤，介绍一个关系型政策语言和相应的学习器，以及基于随机游走的面向目标的规划域的自举例行程序，实验结果表明，该系统能够解决一系列的规划域和其随机变体，但提出了一些局限性建议未来工作。

Sep, 2011

多智能体共识强化学习

本文提出一种基于多智能体共有信息的分层策略树的算法（MACKRL）实现复杂的去中心化协调，其中每个智能体可以独立地学习策略，并根据其共同知识进行协调，并在包括随机矩阵游戏和 StarCraft II 单元微管理等任务上实现更好的性能。

Oct, 2018

成功的成本共担：一种评估与学习多智能体协作指导与遵循策略的游戏

在协作目标导向的情境中，我们提出了一个具有挑战性的交互参考游戏，要求两名玩家在视觉和语言观察方面进行协调。我们展示了标准的 Proximal Policy Optimization (PPO) 设置在启发式伙伴行为的引导下能够获得较高的成功率，并且我们发现相互配对的神经伙伴确实在重复游戏时减少了测量到的联合努力，但与合理的启发式配对相比仍有改进的空间，这促使进一步探索协作互动中的成本分享方向的研究。

Mar, 2024

使用共同信息方法的点控制多智能体算法

本文研究了基于 Common Information 方法的多智能体随机控制问题，提出了一种新的算法 CHSVI 解决了协调器的 POMDP 可能出现的计算难题。

Apr, 2023