Wikipedia 是否能帮助离线强化学习？

Jan, 2022

Wikipedia 是否能帮助离线强化学习？

Can Wikipedia Help Offline Reinforcement Learning?

Machel Reid, Yutaro Yamada, Shixiang Shane Gu

TL;DR本研究探索了将强化学习作为序列建模的一种形式，并研究了预训练序列模型在其他领域（视觉、语言）上进行细调时的可迁移性，同时提出了改善这些领域之间转移的技术。结果表明，在各种环境下加速训练 3-6 倍，并使用 Wikipedia 预训练和 GPT2 语言模型在各种任务中实现了最先进的表现。

Abstract

Fine-tuning reinforcement learning (RL) models has been challenging because of a lack of large scale off-the-shelf datasets as well as high variance in transferability among different environments. Recent work has looked at tackling offline RL from the perspective of →

reinforcement learning sequence modeling transfer learning pre-trained models convergence speed

发现论文，激发创造

离线强化学习能助力自然语言理解吗？

本论文旨在探究离线强化学习和语言建模之间的潜在关系，通过使用 Transformer 模型对不同的离线强化学习任务进行预训练，并在各种与语言相关的任务上进行评估，结果表明，与使用语言建模的模型相比，我们的 RL 预训练模型具有接近的性能，从而验证了这两种模态之间存在着共同的有用特征，进一步探索了如马尔可夫性和 RL 轨迹的顺序性等因素的潜在关系。

Sep, 2022

离线强化学习问题的序列建模方法

本文介绍了如何使用序列建模来解决强化学习问题，使用 Transformer 架构来建模轨迹上的分布，并改造了波束搜索作为规划算法，在长时间序列预测、模仿学习、目标条件下的强化学习和离线强化学习等方面展示了该方法的灵活性和高效性，同时将该方法与基于模型的算法相结合，使其在稀疏奖励、长时间序列任务中表现为最先进的计划器。

Jun, 2021

在真实环境中微调离线世界模型

通过使用离线数据集在真实机器人上对世界模型进行预训练，然后通过使用学习模型进行在线数据集的规划和微调，本文试图解决强化学习在真实机器人上训练时的数据效率问题，以及模型在训练和推理过程中的分布偏移问题，该方法在模拟环境和真实机器人上的视觉 - 动作控制任务上进行了验证，发现即使离线数据有限，该方法也能实现对已知和未知任务的少次数微调。

Oct, 2023

离线强化学习中的引导式 Transformer

本文提出了一种名为 Bootstrapped Transformer 的新算法，将 bootstrapping 思想和模型自我生成更多离线数据相结合，进一步提高序列模型训练的效果，该方法在两个离线 RL 基准测试中均取得了优于其他强基线方法的效果，并分析其生成的伪数据所展示出的特点可能会对离线 RL 训练产生启示。

Jun, 2022

释放预训练语言模型在离线强化学习中的能力

离线强化学习 (LaMo) 是一种基于决策 Transformer 的通用框架，旨在通过使用预训练语言模型和无广义知识的 LoRA 微调方法进行生成嵌入，并在稀奖励和有限数据样本任务中取得了最先进的性能。

Oct, 2023

小数据集，巨大增益：通过基于模型的增强学习的离线预训练来提升性能

基于离线数据的强化学习预训练改进的模型数据增强策略，可以减少所需数据规模，并大幅提高在线微调效果和降低环境交互次数。

Dec, 2023

使用合成数据进行预训练有助于离线强化学习

最近的研究表明，对于离线深度强化学习，通过在大型语言语料库中对决策 Transformer 进行预训练可以提高下游性能。本文首先证明了语言对于提升性能并非必要，事实上，通过对一小部分迭代进行合成 IID 数据的预训练即可与大型语言语料库的预训练相匹配；此外，使用一步马尔科夫链生成的数据进行预训练还可以进一步提高性能。受这些实验结果的启发，本文还考虑了保守 Q 学习（CQL）的预训练，它是一种基于 Q 学习的离线深度强化学习算法，通常使用多层感知机（MLP）骨干网络。令人惊讶的是，通过对一小部分迭代使用简单的合成数据进行预训练也可以改善 CQL，在 D4RL Gym 运动数据集上提供持续的性能改进。本文的结果不仅说明了离线深度强化学习中预训练的重要性，还表明预训练数据可以是合成的，并通过非常简单的机制生成。

Oct, 2023

序列建模中应对乐观主义策略的强化学习

本研究提出了一种解决优化偏差的方法，即通过显式分离策略和世界模型，并在测试时寻找能够应对多种可能未来环境的策略，以更好地完成多种自动驾驶任务。

Jul, 2022

离线强化学习的多目标决策 Transformer

离线强化学习以多目标优化问题的形式重新定义为序列建模任务，引入动作空间区域以解决变换模型的关注机制在输入上分配变化注意权重的潜在问题。实验证明这些提议使得变换模型更有效地利用关注机制，达到或超过当前最先进方法的性能。

Aug, 2023

多游戏决策转换器

本研究探讨了采用 transformer-based model 方法训练的多用途强化学习代理程序在 Atari 游戏中的表现，发现使用 Multi-Game Decision Transformer 模型的性能和可伸缩性最佳，并提供预训练模型和代码以鼓励该方向的进一步研究。

May, 2022