基于模型的强化学习中的目标不匹配

Feb, 2020

基于模型的强化学习中的目标不匹配

Objective Mismatch in Model-based Reinforcement Learning

Nathan Lambert, Brandon Amos, Omry Yadan, Roberto Calandra

TL;DR本文研究模型驱动强化学习中的目标不匹配问题，通过探讨训练前向动力学模型的似然性和提高下游控制任务绩效之间的关系，发现单纯遵照似然性训练不一定能提高控制性能，提出一种缓解目标不匹配问题的方法并探讨了其他潜在的解决方案。

Abstract

model-based reinforcement learning (MBRL) has been shown to be a powerful framework for data-efficiently learning control of continuous tasks. Recent work in MBRL has mostly focused on using more advanced function approximators and planning schemes, with little development of the gener

model-based reinforcement learning objective mismatch issue forward dynamics model control performance likelihood

发现论文，激发创造

模型基强化学习中解决客观差异的统一视角

模型驱动强化学习（MBRL）通过学习环境的显式模型，使智能体更具有样本效率、自适应性和可解释性。本研究提供了对 MBRL 中解决目标不匹配问题的多个解决方案类别的深入调查，并提出了一个分类以促进未来的研究。

Oct, 2023

对齐上界：从人类反馈中的强化学习目标不匹配

用来自人类反馈的强化学习技术已经成为一个强大的工具，使得大型语言模型在复杂环境中更容易引导，更具能力。然而，由于奖励模型、策略模型和评估模型之间的不一致性，存在目标不匹配的问题。本文探讨了这个问题的原因，并回顾了相关的模型学习和强化学习文献。同时，讨论了激励解匹配之后的解决方案，以促进进一步的研究，从而使未来的语言模型更加准确地遵循用户的指令，提供更安全和有用的服务。

Oct, 2023

基于模型的前瞻性强化学习

本论文结合模型推理控制与模型无关的深度强化学习方法，提出一种更加高效的学习框架，并在标准的连续控制基准任务中取得了与模型无关方法相当的性能表现。

Aug, 2019

模型是否应该准确？

通过引入基于元学习的算法，该文探讨了在复杂或动态环境中，即使存在不完美的模型，不严格追求模型准确度也能提高模型的实用性，并通过实验验证了算法的有效性。

May, 2022

基于模型的强化学习的自我纠正模型

本文从理论角度分析了 Hallucinated Replay 方法在模型有误的情况下的强化学习效果，提出了一种新的误差界，利用这种方法使确定性 MDPs 的强化学习算法更具有鲁棒性和性能保证。

Dec, 2016

基于模型的强化学习基准测试

本文为了推动模型基强化学习（Model-based Reinforcement Learning, MBRL）的研究，收集了大量 MBRL 算法，并提出了 18 个为 MBRL 特别设计的基准环境来评估这些算法，并探讨了 MBRL 算法之间的主要差异和研究挑战。

Jul, 2019

交替离线模型训练和策略学习的统一框架

本文提出了一种迭代离线模型学习 (MBRL) 框架，其中通过交替进行动态模型训练和策略学习来最大化真实预期回报的下限，从而解决了动态模型和策略学习之间的目标不匹配问题，从而在广泛的连续控制离线强化学习数据集上实现了竞争性能。

Oct, 2022

模型不匹配下的强化学习

论文研究了缺失真实环境信息的强化学习问题，将鲁棒 MDP 框架扩展到无模型参数条件下的 RL 设置中，提出了三个具有鲁棒性的 Q-learning、SARSA 和 TD-learning 算法，并通过函数逼近扩展到大规模 MDPs，证明了其收敛性，并给出了保证局部最小的随机梯度下降算法。

Jun, 2017

模型基强化学习的多时间步模型

模型驱动的强化学习中，通过使用多时间步目标训练一步预测模型来解决一步预测误差在轨迹增长时的累积问题，实验证明指数衰减权重能显著提高长期视野得分，尤其在嘈杂环境下，展示了该方法在实际应用中的潜力。

Oct, 2023

目标感知预测：学习如何模拟重要因素

该论文提出了一种基于自监督学习的学习动力学模型，该模型可用于任务规划和策略学习，避免了视觉控制任务中由于真实环境的复杂度超过模型容量所导致的训练效率低的问题。

Jul, 2020