DreamSmooth: 通过奖励平滑改进基于模型的强化学习

Nov, 2023

DreamSmooth: 通过奖励平滑改进基于模型的强化学习

DreamSmooth: Improving Model-based Reinforcement Learning via Reward Smoothing

Vint Lee, Pieter Abbeel, Youngwoon Lee

TL;DR基于模型的强化学习（MBRL）通过生成带有预测奖励的虚拟轨迹来规划动作，以高样本效率地学习复杂行为。我们提出一种简单而有效的奖励平滑方法 DreamSmooth，通过学习预测时间上平滑的奖励，而不是给定时间步的精确奖励。实证结果表明，DreamSmooth 在长时间范围的稀疏奖励任务上实现了最先进的性能，同时在常见的基准测试中也不损失性能，如 Deepmind 控制套件和 Atari 基准。

Abstract

model-based reinforcement learning (MBRL) has gained much attention for its ability to learn complex behaviors in a sample-efficient way: planning actions by generating imaginary trajectories with predicted rewards. Despite its success, we found that surprisingly, →

model-based reinforcement learning reward prediction reward smoothing sparse rewards sample efficiency

发现论文，激发创造

稳健且平滑的深度强化学习策略

提出了新的 Deep RL 框架 $ extbf {SR}^2 extbf {L}$，通过引入 smoothness-induced regularization，使学习到的 policy 对连续状态空间的过渡 smooth，提高抗扰动能力和样本效率。在 TRPO 和 DDPG 上实验表明，该方法取得了效果的提升。

Mar, 2020

模型基强化学习的多时间步模型

模型驱动的强化学习中，通过使用多时间步目标训练一步预测模型来解决一步预测误差在轨迹增长时的累积问题，实验证明指数衰减权重能显著提高长期视野得分，尤其在嘈杂环境下，展示了该方法在实际应用中的潜力。

Oct, 2023

基于模型的强化学习的自我纠正模型

本文从理论角度分析了 Hallucinated Replay 方法在模型有误的情况下的强化学习效果，提出了一种新的误差界，利用这种方法使确定性 MDPs 的强化学习算法更具有鲁棒性和性能保证。

Dec, 2016

基于模型的前瞻性强化学习

本论文结合模型推理控制与模型无关的深度强化学习方法，提出一种更加高效的学习框架，并在标准的连续控制基准任务中取得了与模型无关方法相当的性能表现。

Aug, 2019

学习潜在动态健壮表示的世界模型

利用视觉模型仿真提升强化学习效果，通过空时屏蔽策略和混合循环状态空间模型来准确捕捉环境的重要特征，以提高策略的学习与表现。

May, 2024

通过深度强化学习实现平滑轨迹避碰

本论文针对 DRL 导航解决方案中的两个核心问题提出了多种新的代理状态和奖励函数设计，即平滑性训练轨迹和模型泛化能力，利用边缘奖励和平滑度约束来确保无人机平稳飞行，同时大大降低碰撞风险，并演示整个设计和各组件的有效性。

Oct, 2022

基于技能的模型驱动增强学习

本研究提出了一种基于技能空间的模型强化学习（SkiMo）框架，使用技能动力学模型来规划，以实现精确和有效的长期规划，从而使学习复杂任务变得更加高效。该框架在导航和操作领域的实验结果表明，对于模型强化学习和技能强化学习，能够扩大时间范围并提高示范效率。

Jul, 2022

使用从稀疏奖励演示中学到的平滑引导奖励的策略优化

通过使用离线演示算法，提出了一种名为 Policy Optimization with Smooth Guidance (POSG) 的简单高效的在线深度强化学习算法，该算法能够解决奖励反馈稀疏性的问题，并在稀疏奖励环境中实现可靠有效的长期信用分配以及有效的探索。

Dec, 2023

SAM-RL: 基于可微物理仿真与渲染的感知感知模型强化学习

提出了一种基于感知的模型强化学习系统 SAM-RL，利用可微分的基于物理学的模拟和渲染自动更新模型，并通过不同的视角监测任务进程以提高样本效率，在三个机器人操作任务中进行了实际应用并证明了其有效性。

Oct, 2022

模型是否应该准确？

通过引入基于元学习的算法，该文探讨了在复杂或动态环境中，即使存在不完美的模型，不严格追求模型准确度也能提高模型的实用性，并通过实验验证了算法的有效性。

May, 2022