长模型推演不是坏 Q-值估计的理由

Jul, 2024

长模型推演不是坏 Q-值估计的理由

Why long model-based rollouts are no reason for bad Q-value estimates

Philipp Wissmann, Daniel Hein, Steffen Udluft, Volker Tresp

TL;DR本文研究使用模型基于离线强化学习和长模型回滚。研究表明，长回滚并不会导致指数增长的错误，而且实际上可以产生比无模型方法更好的Q值估计，这些发现有可能增强强化学习技术。

Abstract

This paper explores the use of model-based offline reinforcement learning with long model rollouts. While some literature criticizes this approach due to →

发现论文，激发创造

基于模型的价值估计，用于高效的无模型强化学习

本文提出了一种基于模型的价值拓展方法，通过限制想象的深度，控制模型的不确定性，提高了模型自由强化学习算法中学习价值估计的样本复杂度，针对连续控制任务使用了学习到的动态模型。

Feb, 2018

何时信任你的模型：基于模型的策略优化

本文研究模型在强化学习算法中的使用，旨在解决生成数据的容易程度与模型生成数据的偏差之间的平衡问题。作者提出了一种基于模型的强化学习算法，并探讨了模型在策略优化中的作用。实践中，作者发现模型生成的在线策略数据总是不如真实的离线数据。然而，通过将模型泛化能力的经验估计纳入到分析中，可以证明模型的使用是合理的。最后，作者展示了一种简单的方法，使用从真实数据中分支的短模型生成滚动数据，具有比其他基于模型的方法更好的样本效率，可以匹配最佳无模型算法的渐近性能，并能处理其它基于模型的算法不能处理的问题。

Jun, 2019

模型基强化学习中的复合误差对抗学习

本文探讨了根据状态相关最大累积模型误差确定规划范围的技术及其与时间差分方法相结合的应用，实验结果表明，该算法相对于基准的基于模型和无模型方法可以显著提高策略学习效率。

Dec, 2019

离线基于模型的强化学习中设计选择的重新审视

本研究比较不同的不确定性启发式方法，并设计新的协议来研究它们与其他超参数的交互作用，使用这些洞见，我们展示了使用Bayesian优化选择这些关键超参数可以产生优越的配置，这与现有手动调整的最先进方法大不相同，从而实现了大幅度的强化学习。

Oct, 2021

离线强化学习的悲观Q学习：朝着最优样本复杂性的方向

本文研究了离线强化学习的一个悲观策略Q-learning，针对有限时间的马尔科夫决策过程，通过单一策略密度函数的集中性假设，对其样本复杂度进行了表征，并提出了一种方差减小的悲观Q-learning算法来达到接近最优的样本复杂度。研究结果表明，在离线强化学习中，结合悲观策略和方差减小的模型无关型算法能够提高效率。

Feb, 2022

模型强化学习中价值扩展方法的递减收益

本文对用于连续控制问题的一类基于模型的价值扩展方法中的样本效率的问题进行了研究，并通过实验表明，在提升普通动力学模型的准确性时所增加的样本效率 marginally，远远达不到与无模型方法相当的表现。

Mar, 2023

离线模型基强化学习调查

本文对离线模型强化学习的最新工作进行了文献综述，其中介绍了离线强化学习和模型强化学习的概念和最新发展，讨论了两个领域的交叉点，并提出了未来工作的可能方向。研究了现有离线模型强化学习方法中遇到的主要问题-分布漂移，并展示了关键相关论文及其方法。

May, 2023

通过未见过的状态增强在离线强化学习中利用泛化能力

离线强化学习方法在探索和利用之间通过保守的值估计寻求平衡，该研究针对这一问题提出了一种基于模型的方法来增强对未知状态的利用性，并通过值观察下的扰动来找到未知状态，取得了改进的性能。

Aug, 2023

离线到线上强化学习中Q值估计的视角

离线到在线强化学习（O2O RL）旨在通过少量在线样本来改进离线预训练策略的性能。本文从一个新颖的角度系统研究O2O RL中仍存在的挑战，并确定性能改进缓慢和在线微调不稳定的原因在于离线预训练中准确性不高的Q值估计。为解决这个问题，我们采用了两种技术：扰动值更新和增加Q值更新的频率。我们的实验证明，提出的方法SO2显著缓解了Q值估计问题，并相对于最先进的方法改进了性能高达83.1%。

Dec, 2023

使用基于模型的离线强化学习解决长期任务

通过使用学习模型生成虚拟轨迹来解决学习有限、静态数据挑战的基于模型的离线强化学习方法，通过使用期望回归和λ-returns来缓解模型轨迹中的高偏差，在处理长时程任务方面明显优于以前的方法，同时与基于模型和无模型的方法在评估任务上效果相当。

Jun, 2024