多智能体系统中独立学习的近似全局收敛性

May, 2024

多智能体系统中独立学习的近似全局收敛性

Approximate Global Convergence of Independent Learning in Multi-Agent Systems

Ruiyang Jin, Zaiwei Chen, Yiheng Lin, Jie Song, Adam Wierman

TL;DR独立学习是一个常用方法来实现大规模多智能体系统的可扩展性，本文研究了两个代表性算法，在基于价值函数和策略的框架中，为近似全局收敛提供了首个有限样本分析结果。这些结果揭示了样本复杂度约为 ϵ^(-2)，考虑了智能体间的依赖关系和独立学习实现全局收敛的基本限制。为了建立这一结果，我们开发了一种新的独立学习分析方法，通过构建可分离的马尔可夫决策过程 (MDP) 进行收敛性分析，然后限制由于可分离 MDP 与原始 MDP 之间的模型差异所造成的差距。此外，我们使用合成 MDP 和电动车充电示例进行数值实验，验证了我们的理论发现并展示了独立学习的实际适用性。

Abstract

independent learning (IL), despite being a popular approach in practice to achieve scalability in large-scale multi-agent systems, usually lacks global convergence guarantees. In this paper, we study two representative algorithms, independent $Q$-learning and independent natural actor-

independent learning global convergence sample complexity markov decision process electric vehicle charging

发现论文，激发创造

逆因子化 Q-Learning 用于合作多智能体模仿学习

该论文提出了一种针对合作多智能体系统的新颖多智能体模仿学习算法，通过使用混合网络聚合分散的 Q 函数，实现了集中式学习，并在具有高度挑战性的竞争性和合作性多智能体游戏环境中进行了广泛实验，表明该算法相对于现有的多智能体模仿学习算法具有显著的有效性。

Oct, 2023

大规模马尔可夫潜在博弈的独立策略梯度：更快收敛速率，函数逼近和游戏无关收敛

本文研究策略梯度方法在 Markov 潜在博弈多智能体强化学习问题上的全局非渐进收敛性质，提出新的独立策略梯度算法，证明算法达到 epsilon-Nash 平衡的迭代复杂度为 O (1/epsilon^2)，并在利用函数逼近的样本算法中，建立了样本复杂度为 O (1/epsilon^5) 的界限。同时，还找到了一类独立策略梯度算法，可在玩家对游戏类型无感知的情况下，实现零和马尔科夫博弈和合作马尔科夫博弈的收敛性。通过实验验证了理论成果的优点和有效性。

Feb, 2022

受限马尔可夫潜在博弈中的独立学习

本文介绍了一个针对约束马尔可夫博弈的独立策略梯度算法，利用近端点更新和正则化约束集来求解近似的约束纳什均衡，具备独立实现、分布式更新和收敛性保证的特点。

Feb, 2024

竞争式强化学习的独立策略梯度方法

本论文在两个代理竞争式强化学习环境 (即零和随机博弈) 中，通过独立学习算法和政策梯度方法，证明了通过双时间尺度规则，两个代理的策略将收敛于游戏的极小值 - 最大值均衡点。这是首个有限样本收敛结果的独立政策梯度方法在竞争 RL 中的表现；先前的工作主要集中在集中式，协调过程的均衡计算上。

Jan, 2021

走向模仿学习的基本极限

研究了在马尔可夫决策过程中，即使在给定数据集前提下，模仿专家政策的算法可能会存在次优性，并提出了一种基于最小距离函数的新算法，在确定性专家和已知转移模型的情况下，提高了最小极值速率。

Sep, 2020

免去探索假设的折扣线性 MDP 中的模仿学习

我们提出了一种新的算法 ILARL 用于无限时间线性 MDP 中的模仿学习，该算法大大改进了学习者需要从环境中采样的轨迹数量的界限，并且从 ε 的收敛速度从 O (ε^-5) 改进到 O (ε^-4)，我们的结果建立在模仿学习与带有对抗性损失的 MDPs 在线学习之间的联系上。此外，我们基于有限时间线性 MDP 为 ILARL 提供了一项更为强大的结果，实现了 O (ε^-2) 的效果。线性函数逼近的数值实验证明了 ILARL 优于其他常用算法。

May, 2024

多智能体生成对抗模仿学习

本文提出了一种新的适用于多智能体环境的 Multi-Agent 模仿学习框架，它建立在广义反向强化学习的基础上，并引入了实用的多智能体演员 - 评论家算法。该方法可用于多个合作或竞争代理的高维环境中模仿复杂的行为。

Jul, 2018

模仿学习方法的差异最小化视角

本文提出了一种基于分歧最小化的 Imitation Learning 方法，即 $f$-MAX，将 IRL 方法如 GAIL 和 AIRL 联系起来并揭示了它们的算法特性，通过期望最大化演算法来教授机器人在推手环境中进行多样化的行为。

Nov, 2019

网络多智能体强化学习中局部策略迭代的全局收敛性

本研究提出了一种名为局部策略迭代的算法，可以通过提高智能体之间的合作，最大化长期奖励的平均值，解决了多智能体强化学习问题中所面临的维度诅咒和通信限制的问题。

Nov, 2022

基于集成的交互式模仿学习

我们研究了交互式模仿学习，其中学习者通过与演示专家的互动查询动作注释，旨在学习一种能够与专家表现竞争性能且使用尽可能少的注释的策略。我们提出了一种名为集成交互式模仿学习（EIIL）的算法框架，可实现此目标。从理论上讲，我们证明了 EIIL 的一个效率优于 oracle 版本能够保证尖锐的后悔，前提是可以访问某个对状态具有 “探索性” 分布的样本。经验上，EIIL 在连续控制任务中明显超过在线和离线模仿学习基准。我们的工作为使用模型集合进行交互式模仿学习的收益开辟了系统研究。

Dec, 2023