离线模型基强化学习中的达到边界问题

Feb, 2024

离线模型基强化学习中的达到边界问题

The Edge-of-Reach Problem in Offline Model-Based Reinforcement Learning

Anya Sims, Cong Lu, Yee Whye Teh

TL;DR模型辅助的离线强化学习方法在现有理论框架下存在无法解决的边界问题，因此提出了针对此问题的效果显著的新方法 Reach-Aware Value Learning (RAVL)。

Abstract

offline reinforcement learning aims to enable agents to be trained from pre-collected datasets, however, this comes with the added challenge of estimating the value of behavior not covered in the dataset. Model-based methods offer a solution by allowing agents to collect additional syn

offline reinforcement learning model-based methods dynamics model edge-of-reach problem reach-aware value learning (ravl)

发现论文，激发创造

离线基于模型的强化学习中设计选择的重新审视

本研究比较不同的不确定性启发式方法，并设计新的协议来研究它们与其他超参数的交互作用，使用这些洞见，我们展示了使用 Bayesian 优化选择这些关键超参数可以产生优越的配置，这与现有手动调整的最先进方法大不相同，从而实现了大幅度的强化学习。

Oct, 2021

稳健离线深度强化学习中克服模型偏差

本研究提出了一种基于动力学模型的离线策略搜索算法 MOOSE，使用动力学模型评估策略的性能，得出了比当下主流的无模型、离线强化学习算法 BRAC、BEAR 和 BCQ 更稳健的结果。

Aug, 2020

采用潜空间模型的基于图像的离线强化学习

该研究提出了一种基于模型的离线 RL 算法，该算法可扩展应用于高维视觉观测空间，通过学习潜在状态动力学模型并在潜在空间中表示不确定性来克服图像观测的挑战，并在多项具有挑战性的基于图像的移动和操纵任务中取得了优异的表现。

Dec, 2020

离线强化学习的极简主义方法

通过在在线强化学习算法的策略更新中添加行为克隆项并规范化数据，在保持简单性的同时，最大限度地提高了运行效率，从而实现了与现有离线 RL 算法相当的性能。

Jun, 2021

离线强化学习：值函数逼近的基本限制

本研究针对离线强化学习问题，研究了在实践中越来越受到关注的离线值函数逼近方法，发现其需要有限制的覆盖条件或超出监督学习的表示条件，并提出了所谓的过覆盖现象，阐述了在线和离线强化学习之间的巨大分离性，最终得出任何算法都需要多项式大小的样本复杂度来学习非平凡策略的结论。

Nov, 2021

离线模型基强化学习调查

本文对离线模型强化学习的最新工作进行了文献综述，其中介绍了离线强化学习和模型强化学习的概念和最新发展，讨论了两个领域的交叉点，并提出了未来工作的可能方向。研究了现有离线模型强化学习方法中遇到的主要问题 - 分布漂移，并展示了关键相关论文及其方法。

May, 2023

基于模型的价值估计，用于高效的无模型强化学习

本文提出了一种基于模型的价值拓展方法，通过限制想象的深度，控制模型的不确定性，提高了模型自由强化学习算法中学习价值估计的样本复杂度，针对连续控制任务使用了学习到的动态模型。

Feb, 2018

建立分布鲁棒学习和离线强化学习的桥梁：缓解分布偏移和部分数据覆盖的方法

离线强化学习中的分布偏移问题可以通过分布鲁棒学习框架来解决，本文提出了两种使用该框架的离线强化学习算法，并通过模拟实验展示了其优越性能。

Oct, 2023

用户交互离线强化学习

本论文提出了一种算法，使用户可以同时解决由于性能不佳或行为不熟悉而导致的问题，通过调整运行时的设定，可以逐步调整最重要的超参数 —— 将学习的策略与原始策略之间的接近程度，并在策略降级或行为过于偏离熟悉行为时随时停止。

May, 2022

正则化行为价值估计

本文提出一种基于离线强化学习的新方法 Regularized Behavior Value Estimation (R-BVE)，用于解决离线学习中过度估计值所导致的错误问题，该方法在 RL Unplugged ATARI 数据集以及其他数据集上取得了 state-of-the-art 的表现。

Mar, 2021