离线强化学习中的泛化缺陷

Dec, 2023

The Generalization Gap in Offline Reinforcement Learning

Ishita Mediratta, Qingfei You, Minqi Jiang, Roberta Raileanu

TL;DR该研究通过比较在线学习和离线学习等方法的泛化能力，引入离线学习泛化性能评估的新基准，并发现离线学习算法在新环境中的表现不如在线学习算法，而增加数据多样性能够提高离线学习算法在新环境中的性能。

Abstract

Despite recent progress in offline learning, these methods are still trained and tested on the same environment. In this paper, we compare the generalization abilities of widely used online and →

offline learning online learning generalization abilities benchmark diversity of data

发现论文，激发创造

何时应该优先选择离线强化学习而不是行为克隆？

本文研究离线强化学习在何种情况下可以胜过仅仅利用专家数据的行为克隆算法，结果表明：可以在特定的条件下，如稀疏奖励或嘈杂的数据源，现代离线学习方法可以显着地胜过行为克隆算法，尤其是在长期视野问题上，甚至比专家数据上的行为克隆算法更好。

Apr, 2022

离线强化学习的极简主义方法

通过在在线强化学习算法的策略更新中添加行为克隆项并规范化数据，在保持简单性的同时，最大限度地提高了运行效率，从而实现了与现有离线 RL 算法相当的性能。

Jun, 2021

离线强化学习实践

此研究聚焦于离线强化学习，重点是离线学习方法的数据集属性和离线方法的成功相关性，实验证明离线 RL 的多样性和高回报的例子对于成功至关重要，并表明行为克隆仍然是竞争对手。

Nov, 2020

离线强化学习综述：分类、评估与开放性问题

本论文提出一个在线学习和离线学习技术的归一化分类法，总结了离线 RL 领域的最新算法突破和现有基准的特性和不足，并提供了对未来研究方向的展望。

Mar, 2022

深度强化学习的泛化评估

通过引入基准测试和实验协议，我们对深度强化学习中不同泛化方案的优点进行了系统评估，并发现与特定针对泛化的专门方案相比，“vanilla” 深度 RL 算法的泛化能力更强。

Oct, 2018

不联机 Q 学习在多样化的多任务数据上进行同时扩展和泛化

本文提出提高离线强化学习性能的方法：使用 ResNets、基于交叉熵的分布备份、特征标准化，取得了良好的性能和容量扩展性。同时，作者展示了通过多样化数据集的离线 Q 学习可以学习到有用的表示，并实现快速传输到新游戏和在线学习的目标。

Nov, 2022

量化强化学习的泛化能力

本文研究了深度强化学习中的过拟合问题，并使用程序生成的环境来构建不同的训练和测试集，其中引入了一个名为 CoinRun 的新环境，用作强化学习中泛化的基准。使用 CoinRun，作者发现代理程序会对相当大的训练集过拟合，还展示了更深层次的卷积体系结构以及传统监督学习中的方法，包括 L2 正则化，dropout，数据增强和批标准化等，能够提高泛化能力。

Dec, 2018

深度强化学习中的泛化度量和特征描述

本篇论文重新审视了深度强化学习中表示学习的概念，并提出了几种定义，并在一个通用的测试任务上使用这些定义评估了算法的性能，结果表明代理在一些未被探索的状态下决策结果较差，这暗示我们需要更多的实验和分析，以支持表示学习的相关权利主张。

Dec, 2018

离线强化学习中，价值学习真的是主要瓶颈吗？

离线强化学习的性能问题一直存在着，本研究通过比较值函数学习、策略提取和策略泛化这三个组件对离线强化学习的性能进行了系统的实证研究，发现策略提取算法的选择对离线强化学习的性能和可扩展性有着显著影响，同时，离线强化学习的性能问题主要还是由训练数据支持范围之外的测试状态上的策略泛化不完善所导致。本研究提出了两种简单的测试时间策略优化方法，并证明这些方法可以改善离线强化学习的性能。

Jun, 2024

在线和离线配准算法之间性能差距的理解

通过一系列实验证明在线方法优于离线方法，且离线算法训练的策略对生成任务更差，而在线算法对成对分类较差，提示在线采样在人工智能对齐中扮演了关键角色，并暗示了离线对齐算法的一些基本挑战。

May, 2024