模型基强化学习的多时间步模型

Oct, 2023

Multi-timestep models for Model-based Reinforcement Learning

Abdelhakim Benechehab, Giuseppe Paolo, Albert Thomas, Maurizio Filippone, Balázs Kégl

TL;DR模型驱动的强化学习中，通过使用多时间步目标训练一步预测模型来解决一步预测误差在轨迹增长时的累积问题，实验证明指数衰减权重能显著提高长期视野得分，尤其在嘈杂环境下，展示了该方法在实际应用中的潜力。

Abstract

In model-based reinforcement learning (MBRL), most algorithms rely on simulating trajectories from one-step dynamics models learned on data. A critical challenge of this approach is the compounding of one-step prediction errors as length of the trajectory grows. In this paper we tackle

model-based reinforcement learning multi-timestep objective noisy data soft actor-critic real-world applications

发现论文，激发创造

模型驱动增强学习中可靠学习动力学的多步损失函数

采用多步目标来训练一步模型，在模型为确定性时，一步模型作为强基线，在存在噪音时，多步模型更具优势，突显了我们方法在实际应用中的潜力。

Feb, 2024

基于模型的强化学习的自我纠正模型

本文从理论角度分析了 Hallucinated Replay 方法在模型有误的情况下的强化学习效果，提出了一种新的误差界，利用这种方法使确定性 MDPs 的强化学习算法更具有鲁棒性和性能保证。

Dec, 2016

模型是否应该准确？

通过引入基于元学习的算法，该文探讨了在复杂或动态环境中，即使存在不完美的模型，不严格追求模型准确度也能提高模型的实用性，并通过实验验证了算法的有效性。

May, 2022

基于模型的前瞻性强化学习

本论文结合模型推理控制与模型无关的深度强化学习方法，提出一种更加高效的学习框架，并在标准的连续控制基准任务中取得了与模型无关方法相当的性能表现。

Aug, 2019

基于模型的强化学习的博弈论框架

本文提出了一种新的框架，将基于模型的强化学习（MBRL）视为博弈，通过构建领导者与跟随者之间的 Stackelberg 博弈来简化算法设计，并设计了两种自然算法家族，旨在促进样本效率。

Apr, 2020

DreamSmooth: 通过奖励平滑改进基于模型的强化学习

基于模型的强化学习（MBRL）通过生成带有预测奖励的虚拟轨迹来规划动作，以高样本效率地学习复杂行为。我们提出一种简单而有效的奖励平滑方法 DreamSmooth，通过学习预测时间上平滑的奖励，而不是给定时间步的精确奖励。实证结果表明，DreamSmooth 在长时间范围的稀疏奖励任务上实现了最先进的性能，同时在常见的基准测试中也不损失性能，如 Deepmind 控制套件和 Atari 基准。

Nov, 2023

基于模型的强化学习中的目标不匹配

本文研究模型驱动强化学习中的目标不匹配问题，通过探讨训练前向动力学模型的似然性和提高下游控制任务绩效之间的关系，发现单纯遵照似然性训练不一定能提高控制性能，提出一种缓解目标不匹配问题的方法并探讨了其他潜在的解决方案。

Feb, 2020

模型基强化学习中解决客观差异的统一视角

模型驱动强化学习（MBRL）通过学习环境的显式模型，使智能体更具有样本效率、自适应性和可解释性。本研究提供了对 MBRL 中解决目标不匹配问题的多个解决方案类别的深入调查，并提出了一个分类以促进未来的研究。

Oct, 2023

强化学习动态泛化中的轨迹多项选择学习

本文介绍一种新的基于模型的强化学习算法，名为 trajectory-wise multiple choice learning，该算法通过学习多头动力学模型来实现动力学泛化，具有优异的零样本泛化性能。

Oct, 2020

模型基强化学习中的复合误差对抗学习

本文探讨了根据状态相关最大累积模型误差确定规划范围的技术及其与时间差分方法相结合的应用，实验结果表明，该算法相对于基准的基于模型和无模型方法可以显著提高策略学习效率。

Dec, 2019