带有函数逼近的可证明高效合作多智能体强化学习

Mar, 2021

带有函数逼近的可证明高效合作多智能体强化学习

Provably Efficient Cooperative Multi-Agent Reinforcement Learning with Function Approximation

Abhimanyu Dubey, Alex Pentland

TL;DR本文介绍了采用价值迭代和信息交流来解决固定通信预算下，多智能体强化学习问题，并证明了在有限信息交流的异构合作场景下，可以实现 Pareto 最优无悔学习。这个工作将多智能体情境和多武器武装带宽文献中的几个思想推广到了 MDP 和强化学习领域。

Abstract

reinforcement learning in cooperative multi-agent settings has recently advanced significantly in its scope, with applications in cooperative estimation for advertising, dynamic treatment regimes, distributed con

reinforcement learning cooperative multi-agent value iteration communication budget mdps

发现论文，激发创造

多智能体强化学习：异步通信和线性函数逼近

该论文研究了多智能体强化学习在时序马尔科夫决策过程的情景下的应用，提出了一种基于价值迭代的算法，实现异步通信并保证协作的优势，证明了，当使用线性函数逼近时，该算法的遗憾值可达到 $\tilde {\mathcal {O}}(d^{3/2} H^2\sqrt {K})$，且通信复杂度为 $\tilde {\mathcal {O}}(dHM^2)$。

May, 2023

通过函数逼近证明的高效去中心化多智能体强化学习

提出了第一种能够在分布式系统下使用函数逼近算法解决多代理强化学习的方法，此算法总能输出马尔可夫序列最优解，并且实现了根据多样性相关均衡（CCE）找到Ɛ- 最优解的最优速率，同时，还提出了一种能够在多样性相关均衡（CCE）中找到策略类受限一致均衡的分布式算法。

Feb, 2023

基于图诱导的局部价值函数的分布式多智能体强化学习

本文提出了一种可行的分布式学习框架来处理多智能体协作强化学习中的信任问题，这种方法使用图的结构描述不同类型的多智能体之间的关系，并提出了两种基于本地价值函数的分布式 Reinforcement Learning (RL) 方法，能够在保证有效性的前提下，大幅减少采样复杂性。

Feb, 2022

合作游戏的交互式逆强化学习

该研究探讨了如何设计自主智能体，使其在没有访问联合奖励函数的情况下能够有效地与潜在的次优合作伙伴进行合作。我们将这个问题建模为一个合作的、情节性的两个代理 Markov 决策过程。我们分析了该交互式两个代理场景中关于奖励函数的信息如何被获得，结果显示学习代理的策略对转移函数具有显著影响时，奖励函数可以被高效地学习。

Nov, 2021

带有线性函数逼近的可证明有效强化学习

本文提出了第一个在基于线性动态和线性奖励时，具有多项式运行时间和样本复杂度的可证明的强化学习算法，该算法可以在不需要模拟器或其他假设的情况下实现，具有快速速度且与状态和动作数量无关。

Jul, 2019

强化学习优化：从单智能体到协作智能体

该文章回顾了多智能体强化学习算法在大型控制系统和通信网络方面的最新进展，主要关注不同协调协议下的分散设置，并从分布式优化的视角突出了强化学习算法从单一智能体到多智能体系统的演变，强调多智能体强化学习与分布式优化、信号处理之间的合作，并总结了未来的发展方向与挑战。

Dec, 2019

强化学习中的计算统计差距

本文针对强化学习中的大状态空间问题，研究使用函数逼近的强化学习方法，并提出了寻找高效率算法的方案，同时探讨了计算难度与统计问题之间的关系。

Feb, 2022

合作多智能体学习中的鲁棒事件驱动交互

本文提出了一种利用底层马尔可夫决策过程的内在鲁棒性来减少多智能体学习系统中代理之间通信的方法，该方法基于计算所谓的鲁棒性代理函数，从而实现完全分布式的决策功能并减少代理之间通信次数。

Apr, 2022

完全去中心化的合作多智能体强化学习：调查

该论文系统地回顾了两种全面分散设置下的全面分散方法，即最大化所有代理的共享奖励和最大化所有代理的个人奖励之和，并讨论了未来研究方向。

Jan, 2024

具有网络代理的完全分散的多代理强化学习

本文提出了两种具有函数逼近的分布式学习算法来解决网络智能体的多智能体强化学习问题，这两个算法均为完全去中心化的 Actor-Critic 算法，能够应用于大规模多智能体学习问题中，并在模拟实验中验证了算法的有效性和可收敛性。

Feb, 2018