合作任务的乐观多智体策略梯度

Nov, 2023

Optimistic Multi-Agent Policy Gradient for Cooperative Tasks

Wenshuai Zhao, Yi Zhao, Zhiyuan Li, Juho Kannala, Joni Pajarinen

TL;DR基于乐观主义更新和激活函数的优化，解决了多智能体学习中的相对过度概括问题，并在复杂任务中表现出优异性能。

Abstract

\textit{relative overgeneralization} (RO) occurs in cooperative multi-agent learning tasks when agents converge towards a suboptimal joint policy due to overfitting to suboptimal behavior of other agents. In early work,

relative overgeneralization optimism multi-agent policy gradient leaky relu function advantage transformation

发现论文，激发创造

相对过度概括的课程学习

本文提出了一种称为课程学习的方法来更好地克服相对泛化问题，在 QMIX 中应用该方法可以克服严重的 RO 问题，并在各种合作多智能体任务中取得了最先进的结果。

Dec, 2022

政策优化中的乐观和适应性

本研究通过乐观性和适应性对政策优化进行强化，从而将看似无关的算法重新表述为两个交错步骤的重复应用，并设计了一种通过元梯度学习实现的自适应乐观政策梯度算法。

Jun, 2023

乐观的近端策略优化

本研究通过提出一种基于乐观策略优化的方法（Optimistic Proximal Policy Optimization，OPPO），针对奖励稀少的领域，考虑了总收益的不确定性并在此基础上对策略进行乐观评估，从而优化自主代理的学习效果，实现了在表格任务上优于现有方法的结果。

Jun, 2019

多智能体软 Q 学习

研究了在连续多智能体博弈中应用策略梯度方法时出现的相对过度泛化问题，并提出了多智能体软 Q 学习方法来解决这个问题。与现有方法 MADDPG 相比，该方法可实现更好的多智能体协作任务协调，达到联合行为空间中更好的局部最优。

Apr, 2018

多智体策略梯度方差解决

本文通过量化多智能体强化学习算法中智能体数量和探索策略对算法模型的方差的贡献，并采用优化基线的方式来降低方差，提出了一种解决多智能体 PG 方法效率下降的方案，并在 MuJoCo 和 StarCraft 场景下验证有效性。

Aug, 2021

策略优化中可证明高效的探索

本文提出了一种 Proximal Policy Optimization 算法的乐观变异版本（OPPO），它实现了在带有线性函数拟合、未知转移和对抗奖励的情况下，探索机制下的近似最优解，是第一种实现这一目标的算法。

Dec, 2019

乐观模型展开用于悲观离线策略优化

我们提出了一个简单而有效的基于模型的离线强化学习框架 ORPO，通过提倡更多的离群值扩展，基于乐观的 MDP 生成乐观模型推演用于悲观的离线策略优化，并在理论上证明 ORPO 训练出的策略在线性 MDP 中具有下界，实验结果显示我们的框架在广泛应用的基准测试中显著优于 P-MDP 基线，尤其在需要泛化的问题上表现出明显优势。

Jan, 2024

乐观自然策略梯度：一种简单高效的在线强化学习策略优化框架

本文提出了一种称为 Optimistic NPG 的简单高效策略优化框架，该框架的样本复杂度具有最优的维度依赖性，可以高效地学习线性 MDP 和函数逼近下的最优策略。

May, 2023

部分观察多智能体环境下的演员 - 评论家策略优化

本研究讨论了基于梯度上升的策略梯度和演员 - 评论家算法在部分可观测多智能体环境中的角色，并通过对零和不完全信息游戏等模型的建模来优化模型自由多智能体增强学习的表现。

Oct, 2018

通过知识危险寻优策略优化实现高效探索

提出了一种基于期望风险的探索算法，通过训练神经网络和优化策略使智能体具有探索未知状态的能力，在深度强化学习中表现出良好的性能。

Feb, 2023