基于模型的强化学习的自我纠正模型

AAAIDec, 2016

基于模型的强化学习的自我纠正模型

Self-Correcting Models for Model-Based Reinforcement Learning

Erik Talvitie

TL;DR本文从理论角度分析了 Hallucinated Replay 方法在模型有误的情况下的强化学习效果，提出了一种新的误差界，利用这种方法使确定性 MDPs 的强化学习算法更具有鲁棒性和性能保证。

Abstract

When an agent cannot represent a perfectly accurate model of its environment's dynamics, model-based reinforcement learning (MBRL) can fail catastrophically. planning involves composing the predictions of the mod

model-based reinforcement learning planning hallucinated replay error correction performance guarantees

发现论文，激发创造

模型是否应该准确？

通过引入基于元学习的算法，该文探讨了在复杂或动态环境中，即使存在不完美的模型，不严格追求模型准确度也能提高模型的实用性，并通过实验验证了算法的有效性。

May, 2022

基于模型的前瞻性强化学习

本论文结合模型推理控制与模型无关的深度强化学习方法，提出一种更加高效的学习框架，并在标准的连续控制基准任务中取得了与模型无关方法相当的性能表现。

Aug, 2019

模型基强化学习中解决客观差异的统一视角

模型驱动强化学习（MBRL）通过学习环境的显式模型，使智能体更具有样本效率、自适应性和可解释性。本研究提供了对 MBRL 中解决目标不匹配问题的多个解决方案类别的深入调查，并提出了一个分类以促进未来的研究。

Oct, 2023

模型基强化学习中的复合误差对抗学习

本文探讨了根据状态相关最大累积模型误差确定规划范围的技术及其与时间差分方法相结合的应用，实验结果表明，该算法相对于基准的基于模型和无模型方法可以显著提高策略学习效率。

Dec, 2019

基于模型的强化学习基准测试

本文为了推动模型基强化学习（Model-based Reinforcement Learning, MBRL）的研究，收集了大量 MBRL 算法，并提出了 18 个为 MBRL 特别设计的基准环境来评估这些算法，并探讨了 MBRL 算法之间的主要差异和研究挑战。

Jul, 2019

论规划在基于模型的深度强化学习中的作用

本文研究了 MuZero，一种先进的模型基强化学习算法在控制任务、Atari 游戏和 9x9 围棋等多种环境下的表现，阐述了规划在强化学习中的作用，以及如何在规划过程中优化算法，提高表现，并指出单独采用规划无法实现强的泛化能力。

Nov, 2020

基于模型的强化学习的博弈论框架

本文提出了一种新的框架，将基于模型的强化学习（MBRL）视为博弈，通过构建领导者与跟随者之间的 Stackelberg 博弈来简化算法设计，并设计了两种自然算法家族，旨在促进样本效率。

Apr, 2020

模型基强化学习的多时间步模型

模型驱动的强化学习中，通过使用多时间步目标训练一步预测模型来解决一步预测误差在轨迹增长时的累积问题，实验证明指数衰减权重能显著提高长期视野得分，尤其在嘈杂环境下，展示了该方法在实际应用中的潜力。

Oct, 2023

使用本地遗忘的回放缓冲器进行自适应深度模型强化学习

本文探讨了在深度强化学习中，如何使用改进后的 replay buffer 来解决 catastrophic forgetting 和 stale data 的问题，从而实现在环境变化时能够更加高效地应对。

Mar, 2023

基于模型的强化学习中的目标不匹配

本文研究模型驱动强化学习中的目标不匹配问题，通过探讨训练前向动力学模型的似然性和提高下游控制任务绩效之间的关系，发现单纯遵照似然性训练不一定能提高控制性能，提出一种缓解目标不匹配问题的方法并探讨了其他潜在的解决方案。

Feb, 2020