多智能体强化学习中局部优化实现全局最优

ICMLMay, 2023

多智能体强化学习中局部优化实现全局最优

Local Optimization Achieves Global Optimality in Multi-Agent Reinforcement Learning

Yulai Zhao, Zhuoran Yang, Zhaoran Wang, Jason D. Lee

TL;DR该研究提出了一种基于多智能体强化学习的 PPO 算法，其中每个代理的本地策略类似于 vanilla PPO，并且通过引入悲观主义来评估策略。该算法是合作 Markov 游戏中首个可证明收敛的多智能体 PPO 算法。

Abstract

policy optimization methods with function approximation are widely used in multi-agent reinforcement learning. However, it remains elusive

policy optimization function approximation multi-agent reinforcement learning ppo algorithm markov games

发现论文，激发创造

网络多智能体强化学习中局部策略迭代的全局收敛性

本研究提出了一种名为局部策略迭代的算法，可以通过提高智能体之间的合作，最大化长期奖励的平均值，解决了多智能体强化学习问题中所面临的维度诅咒和通信限制的问题。

Nov, 2022

策略优化中可证明高效的探索

本文提出了一种 Proximal Policy Optimization 算法的乐观变异版本（OPPO），它实现了在带有线性函数拟合、未知转移和对抗奖励的情况下，探索机制下的近似最优解，是第一种实现这一目标的算法。

Dec, 2019

线性马尔可夫决策过程中乐观近端策略优化的理论分析

本研究针对增强学习领域中的近端政策优化（PPO）算法，在线性马尔科夫决策过程中引入乐观变体，提出了一种新的多批次更新机制，使用价值和策略类的新覆盖数论算法进行优化和分析，成果在随机线性马尔可夫决策过程和完全信息对抗性线性马尔可夫决策过程中取得了最先进的成果。在对强化学习领域的理解和改进方面具有重要意义。

May, 2023

部分观察多智能体环境下的演员 - 评论家策略优化

本研究讨论了基于梯度上升的策略梯度和演员 - 评论家算法在部分可观测多智能体环境中的角色，并通过对零和不完全信息游戏等模型的建模来优化模型自由多智能体增强学习的表现。

Oct, 2018

面向分散网络系统的可扩展基于模型的策略优化

本文旨在提高多智能体控制的数据效率，采用基于模型的学习方式，通过多个代理通过本地通信进行合作完成任务，实现分散的基于模型的策略优化框架，提出了扩展的价值函数，理论上证明了产生的策略梯度是真实策略梯度的一个紧密近似，并在智能交通系统的多项基准测试上展示了出色的数据效率和与真实模型的无模型方法匹配的性能。

Jul, 2022

网络马尔可夫潜力博弈中本地化 Actor-Critic 的收敛速率

本研究提出了一种基于网络结构的马尔可夫潜在博弈模型，以及一种局部演员 - 评论家算法，利用函数逼近方法克服了维度诅咒，并给出了与局部误差和函数逼近误差有关的有限样本保证，实验证明该算法能够有效地处理多智能体竞争博弈问题。

Mar, 2023

使用线性函数逼近实现高效的本地规划

研究使用线性函数逼近和模拟器的查询和计算高效的计划算法，在这种情况下，我们提出了名为 “Confident MC-LSPI” 和 “Confident MC-Politex” 的两种算法，同时证明了我们的算法在特征，有效规划控制范围和目标次优性的维度中具有多项查询和计算成本，而这些成本与状态空间的大小无关。

Aug, 2021

去中心化网络化深度多智能体强化学习的价值传播

本研究提出了一种名为 value propagation 的基于 softmax 时间一致性和分布式优化的 MARL 算法，实现了非线性函数逼近、非 asymptotic 收敛率、离线策略转移和控制的收敛保证。

Jan, 2019

局部约束策略优化用于非平稳输入驱动环境的在线强化学习

该论文介绍了一种针对在线强化学习中遇到的忘记、变化等问题的新策略，利用本地约束策略优化（LCPO）来优化当前经验，基于旧经验进行策略衔接，有效地在用于实验室中的合成数据和来自真实电脑系统的数据中进行了验证，结果表明，它在在线设置下优于最先进的策略和离线策略学习方法，并且达到了预先训练整个输入跟踪的离线代理的水平。

Feb, 2023

安全强化学习的收敛策略优化

本研究探讨了安全强化学习问题与非线性函数逼近的关系，将策略优化作为同时考虑目标与限制的非凸问题，通过构建一系列局部替换非凸函数为凸二次函数的约束优化问题，证明了对这些问题求解，其解会收敛于原问题的稳定点；进一步将该算法应用于优化控制和多智能体安全强化学习问题，扩展了理论研究的范围。

Oct, 2019