合作任务的乐观多智体策略梯度
本研究通过提出一种基于乐观策略优化的方法(Optimistic Proximal Policy Optimization,OPPO),针对奖励稀少的领域,考虑了总收益的不确定性并在此基础上对策略进行乐观评估,从而优化自主代理的学习效果,实现了在表格任务上优于现有方法的结果。
Jun, 2019
研究了在连续多智能体博弈中应用策略梯度方法时出现的相对过度泛化问题,并提出了多智能体软 Q 学习方法来解决这个问题。与现有方法 MADDPG 相比,该方法可实现更好的多智能体协作任务协调,达到联合行为空间中更好的局部最优。
Apr, 2018
本文通过量化多智能体强化学习算法中智能体数量和探索策略对算法模型的方差的贡献,并采用优化基线的方式来降低方差,提出了一种解决多智能体 PG 方法效率下降的方案,并在 MuJoCo 和 StarCraft 场景下验证有效性。
Aug, 2021
本文提出了一种 Proximal Policy Optimization 算法的乐观变异版本(OPPO),它实现了在带有线性函数拟合、未知转移和对抗奖励的情况下,探索机制下的近似最优解,是第一种实现这一目标的算法。
Dec, 2019
我们提出了一个简单而有效的基于模型的离线强化学习框架 ORPO,通过提倡更多的离群值扩展,基于乐观的 MDP 生成乐观模型推演用于悲观的离线策略优化,并在理论上证明 ORPO 训练出的策略在线性 MDP 中具有下界,实验结果显示我们的框架在广泛应用的基准测试中显著优于 P-MDP 基线,尤其在需要泛化的问题上表现出明显优势。
Jan, 2024
本文提出了一种称为 Optimistic NPG 的简单高效策略优化框架,该框架的样本复杂度具有最优的维度依赖性,可以高效地学习线性 MDP 和函数逼近下的最优策略。
May, 2023
本研究讨论了基于梯度上升的策略梯度和演员 - 评论家算法在部分可观测多智能体环境中的角色,并通过对零和不完全信息游戏等模型的建模来优化模型自由多智能体增强学习的表现。
Oct, 2018