深度强化学习中被动学习的困难

Oct, 2021

The Difficulty of Passive Learning in Deep Reinforcement Learning

Georg Ostrovski, Pablo Samuel Castro, Will Dabney

TL;DR本文章研究了在没有积极的环境交互的情况下从观测数据学习行动的机制，并引入了“tandem learning”实验模型来帮助理解离线强化学习的挑战，并发现函数逼近与固定数据分布是离线深度强化学习中最强的因素，对离线深度强化学习提供了有价值的见解，同时也为在线控制学习中观察到的现象提供了新的解释。

Abstract

Learning to act from observational data without active environmental interaction is a well-known challenge in reinforcement learning (RL). Recent approaches involve constraints on the learned policy or conservati

发现论文，激发创造

线性函数逼近离线强化学习的统计限制是什么?

本文研究提供确凿的样本高效离线强化学习算法需要什么样的可表示和分布条件。研究发现，即使有到所有策略的真实价值函数都线性映射到一组给定的特征，并且有关于策略的所有特征的良好聚集离线数据（在强谱条件下），任何算法仍然需要指数级的离线样本数量来估计任何给定策略的价值。

Oct, 2020

离线强化学习和模仿学习的联系：一则悲观的故事

提出了一种新的离线强化学习框架，将模仿学习和通用离线强化学习相结合，中心思想是测量从行为策略到专家策略的偏差，进一步研究了针对未知数据分布下的算法设计问题，提出了一种基于悲观策略的下限置信度算法LCB，在多臂赌博机、情境赌博机和马尔可夫决策过程中进行了有限样本性能研究，结果揭示了一些有关最优性率的令人惊讶的事实。

Mar, 2021

离线强化学习的极简主义方法

通过在在线强化学习算法的策略更新中添加行为克隆项并规范化数据，在保持简单性的同时，最大限度地提高了运行效率，从而实现了与现有离线RL算法相当的性能。

Jun, 2021

离线强化学习：值函数逼近的基本限制

本研究针对离线强化学习问题，研究了在实践中越来越受到关注的离线值函数逼近方法，发现其需要有限制的覆盖条件或超出监督学习的表示条件，并提出了所谓的过覆盖现象，阐述了在线和离线强化学习之间的巨大分离性，最终得出任何算法都需要多项式大小的样本复杂度来学习非平凡策略的结论。

Nov, 2021

利用离线数据进行在线强化学习

本文考虑了具有线性结构的MDPs的FineTuneRL设置，并开发了一种称为FTPedel的算法，用于结合脱机数据和在线RL以改进学习表现，结果证明了在线样本数的必要性以及在线RL和脱机数据结合的优越性，突出了在线RL和脱机RL之间的区别。

Nov, 2022

使用离线数据进行高效在线强化学习

本研究提出了一种简单的方法，利用离线数据来解决在线强化学习中的效率和探索性问题，通过对现有离线策略学习算法进行改进，得出了可以在各种竞争对手的基准测试中比现有方法提高2.5倍的建议。

Feb, 2023

增加覆盖分布的离线强化学习

本文研究在函数逼近的情况下，从已有数据集合学习最优策略的离线强化学习问题。研究发现，本文提出的一种简单基于边缘重要采样的算法，可以在数据集合的覆盖率不完整、函数类弱可学习的条件下，通过附加覆盖分布的先验知识来实现理论上的有限次样本保证，同时揭示了学习过程中引入的归纳偏差在覆盖数量与先验知识之间的权衡效应。

May, 2023

悲观离线强化学习的神经网络近似

利用深度强化学习和贝尔曼残差的耦合，我们在一些温和假设下，建立了悲观离线强化学习的非渐进估计误差，该结果展示了深度对抗式离线强化学习框架的显式效率，并对算法模型设计提供了指导。

Dec, 2023

关于样本高效的离线强化学习：数据多样性，后验采样和更多

我们提出了一个新颖的基于后验采样的离线RL算法，该算法在样本效率方面表现出与基于版本空间和经验正则化的算法可比拟的性能，并且具有频率主义的亚优性界限。

Jan, 2024

离线强化学习的简单成分

离线强化学习算法被证明在与目标下游任务高度相关的数据集上非常有效，然而，在轨迹来自不同源头的新测试平台（MOOD）上，我们发现现有方法在面对不同数据时效果明显下降：随着收集到的与任务相关但不同的数据简单地添加到离线缓冲区，它们的性能显著恶化。鉴于此发现，我们进行了大规模经验证明，规模是影响性能的关键因素而非算法上的考虑。我们展示了简单的方法（如AWAC和IQL）通过增加网络规模来克服MOOD中添加附加数据所产生的悖论性失败，且在经典的D4RL基准测试中明显优于先前的最新算法。

Mar, 2024