基于模型探索的策略优化

AAAINov, 2018

Policy Optimization with Model-based Explorations

Feiyang Pan, Qingpeng Cai, An-Xiang Zeng, Chun-Xiang Pan, Qing Da...

TL;DR介绍了一种名为 Policy Optimization with Model-based Explorations (POME) 的新的强化学习策略优化方法，将模型自由和模型依赖估计方法的差距视作探索价值的度量，并将 Monte-Carlo 抽样方法与转移模型相结合，以最大化预测误差的探索价值，从而解决了模型自由与模型依赖学习之间权衡的问题。

Abstract

model-free reinforcement learning methods such as the Proximal Policy Optimization algorithm (PPO) have successfully applied in complex decision-making problems such as Atari games. However, these methods suffer

reinforcement learning model-free model-based exploration value policy optimization

发现论文，激发创造

模型集成信任区域策略优化

通过使用深度神经网络同时学习模型和策略，我们分析了基于模型的增强学习方法的行为，并展示出学习到的策略倾向于利用模型学习不足的区域，导致训练不稳定。为了解决这个问题，我们提出使用模型集合来维护模型的不确定性并规范学习过程，并进一步展示，与 “Backpropagation through time” 相比，使用 “likelihood ratio” 导数可以获得更加稳定的学习。通过我们的方法 ME-TRPO，在具有挑战性的连续控制基准任务中，显著减少了比基于模型的深度 RL 方法所需的样本数量。

Feb, 2018

基于模型的强化学习：元策略优化

提出了一种基于元策略优化的强化学习方法，使用多个学习的动态模型集合来适应真实世界的动态，提高数据利用率和鲁棒性，达到和基于经验的方法一样的渐近性能。

Sep, 2018

策略优化中可证明高效的探索

本文提出了一种 Proximal Policy Optimization 算法的乐观变异版本（OPPO），它实现了在带有线性函数拟合、未知转移和对抗奖励的情况下，探索机制下的近似最优解，是第一种实现这一目标的算法。

Dec, 2019

MOPO: 基于模型的离线策略优化

本文提出了一种基于模型的离线策略优化算法 (MOPO)，通过将模型地图上未知点处的即时报酬设置为高风险，从而优化模型训练过程中的代理策略，以解决离线数据分布发生漂移的问题，并在现有数据集和具有挑战性的连续控制任务中获得了最佳表现。

May, 2020

自适应探索的近端策略优化

探讨了在强化学习环境下的探索与利用权衡，提出了自适应探索的近端策略优化算法（axPPO），该方法通过根据智能体的最近表现动态调整探索幅度，提高了学习效率，特别是在学习过程开始阶段需要大量探索性行为时。

May, 2024

基于信赖域引导的近端策略优化

对 Proximal policy optimization 的探索行为进行了深入分析，提出了一种名为 Trust Region-Guided PPO 的新的策略优化方法，通过自适应调整裁剪范围解决了初始条件差的情况下缺乏探索的问题，并证明其相较于原始的 PPO 算法有更好的性能表现。

Jan, 2019

PPO-CMA：具有协方差矩阵适应性的近端策略优化

提出了 Proximal Policy Optimization (PPO) 算法的改进版本 PPO-CMA，通过 adaptively 扩大 exploration variance 来加速算法优化速度，相对于传统 PPO 算法在 Roboschool continuous control benchmarks 任务中表现显著提升，且不需要耗费大量篇幅调节参数。

Oct, 2018

近端策略优化算法

本研究提出了一种新的针对增强学习的策略梯度方法，称为近端策略优化 (PPO)，通过与环境的交互采样数据，并使用随机梯度上升优化 “替代” 目标函数，不同于标准的策略梯度方法，该方法可以实现多个小批量更新周期，实验结果表明 PPO 在模拟机器人运动和 Atari 视频游戏玩耍等基准任务上的表现优于其他在线策略梯度方法，同时在样本复杂度、实现简单性和时间效率等方面取得了有利的平衡。

Jul, 2017

POMO: 强化学习中带有多个最优解的策略优化

使用改进的 REINFORCE 算法的 POMO 方法，结合了基于增强的推理方法，可获得用于解决 NP-hard 问题的先进的启发式方法，可用于广泛的组合优化问题，显着提高了其性能和速度。

Oct, 2020

双向模型基策略优化

本文提出了一种双向模型策略优化方法（BMPO），该方法通过构建正向和反向动力学模型来提高模型预测精度，从而实现更高的采样效率和渐进性能。

Jul, 2020