使用预训练神经表示的离线强化学习的不稳定性

Mar, 2021

使用预训练神经表示的离线强化学习的不稳定性

Instabilities of Offline RL with Pre-Trained Neural Representation

Ruosong Wang, Yifan Wu, Ruslan Salakhutdinov, Sham M. Kakade

TL;DR本研究从实证的角度研究了离线强化学习的稳定性，尝试使用来自预训练神经网络的特征进行样本高效的离线强化学习，结果表明即使使用这种预训练表示，仍然存在显著的误差扩大，离线强化学习仅在极小的分布偏移范围内是稳定的。这些结果表明，成功的离线强化学习需要更强的条件，这些条件超出了成功监督学习所需的条件。

Abstract

In offline reinforcement learning (RL), we seek to utilize offline data to evaluate (or learn) policies in scenarios where the data are collected from a distribution that substantially differs from that of the target policy to be evaluated. Recent theoretical advances have shown that s

offline reinforcement learning representational conditions error amplification pre-trained neural networks distribution shift

发现论文，激发创造

线性函数逼近离线强化学习的统计限制是什么？

本文研究提供确凿的样本高效离线强化学习算法需要什么样的可表示和分布条件。研究发现，即使有到所有策略的真实价值函数都线性映射到一组给定的特征，并且有关于策略的所有特征的良好聚集离线数据（在强谱条件下），任何算法仍然需要指数级的离线样本数量来估计任何给定策略的价值。

Oct, 2020

表示很重要：为序贯决策进行离线预训练

本文研究了如何将离线数据转换为强化学习模型的有效训练，通过使用无监督学习目标进行预训练的方法，本文提出了一种能够改善从离线数据训练得到的强化学习模型性能的方案，并通过实验证明了其有效性。

Feb, 2021

离线预训练加速探索和表示学习

从单个离线数据集中分别学习噪声对比估计的状态表示和辅助奖励模型，能够显着提高 NetHack 基准测试的样本效率，同时突出了我们实验设置的各种组成部分和关键洞察。

Mar, 2023

离线强化学习的极简主义方法

通过在在线强化学习算法的策略更新中添加行为克隆项并规范化数据，在保持简单性的同时，最大限度地提高了运行效率，从而实现了与现有离线 RL 算法相当的性能。

Jun, 2021

使用离线数据进行高效在线强化学习

本研究提出了一种简单的方法，利用离线数据来解决在线强化学习中的效率和探索性问题，通过对现有离线策略学习算法进行改进，得出了可以在各种竞争对手的基准测试中比现有方法提高 2.5 倍的建议。

Feb, 2023

建立分布鲁棒学习和离线强化学习的桥梁：缓解分布偏移和部分数据覆盖的方法

离线强化学习中的分布偏移问题可以通过分布鲁棒学习框架来解决，本文提出了两种使用该框架的离线强化学习算法，并通过模拟实验展示了其优越性能。

Oct, 2023

小数据集，巨大增益：通过基于模型的增强学习的离线预训练来提升性能

基于离线数据的强化学习预训练改进的模型数据增强策略，可以减少所需数据规模，并大幅提高在线微调效果和降低环境交互次数。

Dec, 2023

利用离线数据加速程序生成环境下的强化学习

研究了强化学习中采用离线轨迹进行数据增强的方法，发现采用离线轨迹进行前置训练或同时进行在线强化学习和离线轨迹训练均能提高样本效率和收敛到最优策略，预训练只需要两条轨迹数据即可对最终学习结果产生较大影响。

Apr, 2023

离线基于模型的强化学习中设计选择的重新审视

本研究比较不同的不确定性启发式方法，并设计新的协议来研究它们与其他超参数的交互作用，使用这些洞见，我们展示了使用 Bayesian 优化选择这些关键超参数可以产生优越的配置，这与现有手动调整的最先进方法大不相同，从而实现了大幅度的强化学习。

Oct, 2021

将基于模型策略的稳态分布规范化以稳定离线强化学习

该研究针对离线强化学习中策略训练不稳定的问题，通过对当前策略的无折扣平稳分布进行正则化，并训练动力学模型以实现该正则化和更好地估计当前策略的平稳分布，从而减少分布不匹配引起的误差，并在广泛的连续控制离线 RL 数据集上展现出竞争性的性能。

Jun, 2022