基于模型的随机价值梯度在连续强化学习中的应用

Aug, 2020

基于模型的随机价值梯度在连续强化学习中的应用

On the model-based stochastic value gradient for continuous reinforcement learning

Brandon Amos, Samuel Stanton, Denis Yarats, Andrew Gordon Wilson

TL;DR本文探讨了基于模型的强化学习与基于模型的无模型强化学习的综合应用方法，发现在高维控制任务中，基于模型的策略评估方法比传统方法更有效。

Abstract

For over a decade, model-based reinforcement learning has been seen as a way to leverage control-based domain knowledge to improve the sample-efficiency of reinforcement learning agents. While model-based agents

model-based reinforcement learning sample-efficiency model-free agents stochastic value gradient policy evaluation

发现论文，激发创造

基于模型的价值估计，用于高效的无模型强化学习

本文提出了一种基于模型的价值拓展方法，通过限制想象的深度，控制模型的不确定性，提高了模型自由强化学习算法中学习价值估计的样本复杂度，针对连续控制任务使用了学习到的动态模型。

Feb, 2018

具有随机集合值扩展的样本有效强化学习

提出了一种名为 “随机集合价值扩展（STEVE）” 的新型基于模型的技术，通过动态插值来消除模型中的错误，与以往的基于模型的方法不同，该方法在复杂环境下不会降低性能，并在具有挑战性的连续控制基准测试中提高了一个数量级的样本效率。

Jul, 2018

通过随机值梯度学习连续控制策略

本文提出了一种使用反向传播学习连续控制策略的统一框架，并通过将贝尔曼方程中的随机性视为外源噪声的确定性函数，来支持随机控制。结果是一系列从有值函数的无模型方法到无值函数的有模型方法的通用策略梯度算法谱。我们使用学习模型，但只需要来自环境的观察而不是模型预测轨迹的观察，最大程度地减少复合模型错误的影响。我们首先将这些算法应用于一个玩具随机控制问题，然后在模拟中将其应用于几个基于物理的控制问题。其中一种变体 SVG（1）显示了在连续领域同时学习模型，价值函数和策略的有效性。

Oct, 2015

针对多任务稀疏奖励环境的基于价值的连续控制机器人操作强化学习

本文研究如何利用基于价值的深度强化学习方法，通过使用改善技术来提高深度 Q 学习（Deep Q learning）的效率，在多任务稀疏奖励机制下完成机器人操作任务。我们的实验表明，价值法比政策梯度法对数据增强和回放缓冲样本技术更加敏感，这些方法对于机器人操作的好处取决于生成的子目标状态的转移动力学。

Jul, 2021

何时信任你的模型：基于模型的策略优化

本文研究模型在强化学习算法中的使用，旨在解决生成数据的容易程度与模型生成数据的偏差之间的平衡问题。作者提出了一种基于模型的强化学习算法，并探讨了模型在策略优化中的作用。实践中，作者发现模型生成的在线策略数据总是不如真实的离线数据。然而，通过将模型泛化能力的经验估计纳入到分析中，可以证明模型的使用是合理的。最后，作者展示了一种简单的方法，使用从真实数据中分支的短模型生成滚动数据，具有比其他基于模型的方法更好的样本效率，可以匹配最佳无模型算法的渐近性能，并能处理其它基于模型的算法不能处理的问题。

Jun, 2019

模型集成信任区域策略优化

通过使用深度神经网络同时学习模型和策略，我们分析了基于模型的增强学习方法的行为，并展示出学习到的策略倾向于利用模型学习不足的区域，导致训练不稳定。为了解决这个问题，我们提出使用模型集合来维护模型的不确定性并规范学习过程，并进一步展示，与 “Backpropagation through time” 相比，使用 “likelihood ratio” 导数可以获得更加稳定的学习。通过我们的方法 ME-TRPO，在具有挑战性的连续控制基准任务中，显著减少了比基于模型的深度 RL 方法所需的样本数量。

Feb, 2018

基于模型预测控制的高效强化学习的价值估计

通过数据驱动方法，基于模型预测控制设计了一种改进的强化学习方法，该方法在经典数据库和无人机动态避障场景中实验结果验证了其高学习效率、更快的策略收敛速度以及需要更少的样本容量空间。

Oct, 2023

基于轨迹的离线深度强化学习

本文提出一种改进的基于 policy gradient 的强化学习算法，通过在参数空间中探索、重用过去的 off-policy 数据和确定性的行为策略等技术，提高了数据效率、降低了梯度估计的方差并避免了局部最优解。在一系列连续控制基准任务上的实验表明，相较于标准的 policy gradient 方法，该算法能够成功可靠地使用更少的系统交互来学习解决方案。

May, 2019

基于模型的残差策略学习及其在天线控制中的应用

通过一种基于模型的强化学习方法，优化了控制实际系统的非可微控制器和基于规则的策略，取得了良好的样本效率。实验结果表明该方法在多种摆臂机器人控制任务中明显优于现有的基于模型的方法，并成功应用于电信领域。

Nov, 2022

基于模型的强化学习模型 —— 使用多步计划价值评估

本文提出了一种新的基于模型的强化学习算法 MPPVE（Model-based Planning Policy Learning with Multi-step Plan Value Estimation），通过引入多步计划来替换多步行动，采用多步计划价值估计来更新政策，从而更好地利用学习到的模型，实现比现有基于模型的强化学习方法更好的样本效率。

Sep, 2022