模型是否应该准确？

May, 2022

Should Models Be Accurate?

Esra'a Saleh, John D. Martin, Anna Koop, Arash Pourzarabi, Michael Bowling

TL;DR通过引入基于元学习的算法，该文探讨了在复杂或动态环境中，即使存在不完美的模型，不严格追求模型准确度也能提高模型的实用性，并通过实验验证了算法的有效性。

Abstract

model-based reinforcement learning (MBRL) holds promise for data-efficiency by planning with model-generated experience in addition to learning with experience from the environment. However, in complex or changing environments, models in MBRL will inevitably be imperfect, and their det

model-based reinforcement learning imperfect models meta-learning algorithm usefulness non-stationary environment

发现论文，激发创造

基于模型的强化学习的自我纠正模型

本文从理论角度分析了 Hallucinated Replay 方法在模型有误的情况下的强化学习效果，提出了一种新的误差界，利用这种方法使确定性 MDPs 的强化学习算法更具有鲁棒性和性能保证。

Dec, 2016

模型基强化学习中解决客观差异的统一视角

模型驱动强化学习（MBRL）通过学习环境的显式模型，使智能体更具有样本效率、自适应性和可解释性。本研究提供了对 MBRL 中解决目标不匹配问题的多个解决方案类别的深入调查，并提出了一个分类以促进未来的研究。

Oct, 2023

基于模型的前瞻性强化学习

本论文结合模型推理控制与模型无关的深度强化学习方法，提出一种更加高效的学习框架，并在标准的连续控制基准任务中取得了与模型无关方法相当的性能表现。

Aug, 2019

基于模型的强化学习中的目标不匹配

本文研究模型驱动强化学习中的目标不匹配问题，通过探讨训练前向动力学模型的似然性和提高下游控制任务绩效之间的关系，发现单纯遵照似然性训练不一定能提高控制性能，提出一种缓解目标不匹配问题的方法并探讨了其他潜在的解决方案。

Feb, 2020

基于模型的强化学习基准测试

本文为了推动模型基强化学习（Model-based Reinforcement Learning, MBRL）的研究，收集了大量 MBRL 算法，并提出了 18 个为 MBRL 特别设计的基准环境来评估这些算法，并探讨了 MBRL 算法之间的主要差异和研究挑战。

Jul, 2019

具有动态感知的无监督技能发现

通过结合基于模型的和基于非模型的机器学习方法，本文提出了一种无监督学习算法 DADS，用于发现易于预测的行为和学习它们的动态，提高了规划算法的效率和性能。

Jul, 2019

基于模型的强化学习的博弈论框架

本文提出了一种新的框架，将基于模型的强化学习（MBRL）视为博弈，通过构建领导者与跟随者之间的 Stackelberg 博弈来简化算法设计，并设计了两种自然算法家族，旨在促进样本效率。

Apr, 2020

机器人快速在线适应通过模拟先验元学习嵌入

提出了一种名为 FAMLE 的元学习算法，通过元训练多个起始点来适应不同的机器人动力学，从而在少量数据点的情况下，使机器人能够选择最适合的起始点以适应当前的情况。在模拟和真实的机器人任务中，FAMLE 相对于基线算法可以更快适应新的损伤。

Mar, 2020

模型基强化学习的多时间步模型

模型驱动的强化学习中，通过使用多时间步目标训练一步预测模型来解决一步预测误差在轨迹增长时的累积问题，实验证明指数衰减权重能显著提高长期视野得分，尤其在嘈杂环境下，展示了该方法在实际应用中的潜力。

Oct, 2023

何时更新您的模型：约束模型基强化学习

提出了一种基于模型的强化学习算法的性能保证方法，引入了一个受约束的下界优化问题，采用了事件触发机制，从而克服了模型更新对性能的影响，并在实验中证明了该方法的有效性。

Oct, 2022