离线强化学习中，价值学习真的是主要瓶颈吗？

Jun, 2024

离线强化学习中，价值学习真的是主要瓶颈吗？

Is Value Learning Really the Main Bottleneck in Offline RL?

Seohong Park, Kevin Frans, Sergey Levine, Aviral Kumar

TL;DR离线强化学习的性能问题一直存在着，本研究通过比较值函数学习、策略提取和策略泛化这三个组件对离线强化学习的性能进行了系统的实证研究，发现策略提取算法的选择对离线强化学习的性能和可扩展性有着显著影响，同时，离线强化学习的性能问题主要还是由训练数据支持范围之外的测试状态上的策略泛化不完善所导致。本研究提出了两种简单的测试时间策略优化方法，并证明这些方法可以改善离线强化学习的性能。

Abstract

While imitation learning requires access to high-quality data, offline reinforcement learning (RL) should, in principle, perform similarly or better with substantially lower data quality by using a value function

offline rl imitation learning value function policy extraction policy generalization

发现论文，激发创造

离线强化学习：值函数逼近的基本限制

本研究针对离线强化学习问题，研究了在实践中越来越受到关注的离线值函数逼近方法，发现其需要有限制的覆盖条件或超出监督学习的表示条件，并提出了所谓的过覆盖现象，阐述了在线和离线强化学习之间的巨大分离性，最终得出任何算法都需要多项式大小的样本复杂度来学习非平凡策略的结论。

Nov, 2021

何时应该优先选择离线强化学习而不是行为克隆？

本文研究离线强化学习在何种情况下可以胜过仅仅利用专家数据的行为克隆算法，结果表明：可以在特定的条件下，如稀疏奖励或嘈杂的数据源，现代离线学习方法可以显着地胜过行为克隆算法，尤其是在长期视野问题上，甚至比专家数据上的行为克隆算法更好。

Apr, 2022

基于隐式 Q 学习的离线强化学习

提出了一种名为 Implicit Q-learning (IQL) 的离线强化学习方法，通过将状态价值函数视为随机变量，利用泛化能力估计在给定状态下最佳可用行为的价值，实现了在不直接查询 Q 函数的情况下改进策略。该方法在离线强化学习标准基准 D4RL 上表现出了最先进的性能。

Oct, 2021

线性函数逼近离线强化学习的统计限制是什么？

本文研究提供确凿的样本高效离线强化学习算法需要什么样的可表示和分布条件。研究发现，即使有到所有策略的真实价值函数都线性映射到一组给定的特征，并且有关于策略的所有特征的良好聚集离线数据（在强谱条件下），任何算法仍然需要指数级的离线样本数量来估计任何给定策略的价值。

Oct, 2020

有限探索的双层离线策略优化

我们研究线下强化学习，旨在根据固定、预先收集的数据集学习出良好的策略。我们提出了一种双层结构的策略优化算法，通过模拟策略（上层）和值函数（下层）之间的层次交互来解决此任务中的分布偏移问题，尤其是在函数逼近的情况下。

Oct, 2023

离线强化学习的极简主义方法

通过在在线强化学习算法的策略更新中添加行为克隆项并规范化数据，在保持简单性的同时，最大限度地提高了运行效率，从而实现了与现有离线 RL 算法相当的性能。

Jun, 2021

离线强化学习中的泛化缺陷

该研究通过比较在线学习和离线学习等方法的泛化能力，引入离线学习泛化性能评估的新基准，并发现离线学习算法在新环境中的表现不如在线学习算法，而增加数据多样性能够提高离线学习算法在新环境中的性能。

Dec, 2023

使用离线数据进行高效在线强化学习

本研究提出了一种简单的方法，利用离线数据来解决在线强化学习中的效率和探索性问题，通过对现有离线策略学习算法进行改进，得出了可以在各种竞争对手的基准测试中比现有方法提高 2.5 倍的建议。

Feb, 2023

稳健离线深度强化学习中克服模型偏差

本研究提出了一种基于动力学模型的离线策略搜索算法 MOOSE，使用动力学模型评估策略的性能，得出了比当下主流的无模型、离线强化学习算法 BRAC、BEAR 和 BCQ 更稳健的结果。

Aug, 2020

超越均匀采样：利用不平衡数据集的离线强化学习

离线策略学习旨在利用现有的轨迹数据集来学习决策策略，而无需收集额外数据。我们通过提出一种采样策略并将其作为标准离线强化学习算法的即插即用模块，从而解决了现有算法在完全优化数据集的情况下性能提升有限的问题。我们的评估表明，在 72 个不平衡数据集、D4RL 数据集以及三个不同离线强化学习算法中均取得了显著的性能改进。

Oct, 2023