使用合成数据进行预训练有助于离线强化学习

Oct, 2023

使用合成数据进行预训练有助于离线强化学习

Pre-training with Synthetic Data Helps Offline Reinforcement Learning

Zecheng Wang, Che Wang, Zixuan Dong, Keith Ross

TL;DR最近的研究表明，对于离线深度强化学习，通过在大型语言语料库中对决策 Transformer 进行预训练可以提高下游性能。本文首先证明了语言对于提升性能并非必要，事实上，通过对一小部分迭代进行合成 IID 数据的预训练即可与大型语言语料库的预训练相匹配；此外，使用一步马尔科夫链生成的数据进行预训练还可以进一步提高性能。受这些实验结果的启发，本文还考虑了保守 Q 学习（CQL）的预训练，它是一种基于 Q 学习的离线深度强化学习算法，通常使用多层感知机（MLP）骨干网络。令人惊讶的是，通过对一小部分迭代使用简单的合成数据进行预训练也可以改善 CQL，在 D4RL Gym 运动数据集上提供持续的性能改进。本文的结果不仅说明了离线深度强化学习中预训练的重要性，还表明预训练数据可以是合成的，并通过非常简单的机制生成。

Abstract

Recently, it has been shown that for offline deep reinforcement learning (DRL), pre-training decision transformer with a large language co

deep reinforcement learning pre-training decision transformer synthetic data offline drl

发现论文，激发创造

离线强化学习能助力自然语言理解吗？

本论文旨在探究离线强化学习和语言建模之间的潜在关系，通过使用 Transformer 模型对不同的离线强化学习任务进行预训练，并在各种与语言相关的任务上进行评估，结果表明，与使用语言建模的模型相比，我们的 RL 预训练模型具有接近的性能，从而验证了这两种模态之间存在着共同的有用特征，进一步探索了如马尔可夫性和 RL 轨迹的顺序性等因素的潜在关系。

Sep, 2022

小数据集，巨大增益：通过基于模型的增强学习的离线预训练来提升性能

基于离线数据的强化学习预训练改进的模型数据增强策略，可以减少所需数据规模，并大幅提高在线微调效果和降低环境交互次数。

Dec, 2023

释放预训练语言模型在离线强化学习中的能力

离线强化学习 (LaMo) 是一种基于决策 Transformer 的通用框架，旨在通过使用预训练语言模型和无广义知识的 LoRA 微调方法进行生成嵌入，并在稀奖励和有限数据样本任务中取得了最先进的性能。

Oct, 2023

基于监督预训练的证明上下文强化学习中的变压器决策者

该研究论文通过理论框架分析了用于 ICRL 的监督预训练 transformer 模型，提出了两种训练方法并证明了其能近似实现专家算法，同时证明了 ReLu 注意力的 transformer 能高效地近似最优在线强化学习算法，这为离线轨迹预训练的 transformer 模型的 ICRL 能力提供了首次量化分析。

Oct, 2023

利用离线数据加速程序生成环境下的强化学习

研究了强化学习中采用离线轨迹进行数据增强的方法，发现采用离线轨迹进行前置训练或同时进行在线强化学习和离线轨迹训练均能提高样本效率和收敛到最优策略，预训练只需要两条轨迹数据即可对最终学习结果产生较大影响。

Apr, 2023

Wikipedia 是否能帮助离线强化学习？

本研究探索了将强化学习作为序列建模的一种形式，并研究了预训练序列模型在其他领域（视觉、语言）上进行细调时的可迁移性，同时提出了改善这些领域之间转移的技术。结果表明，在各种环境下加速训练 3-6 倍，并使用 Wikipedia 预训练和 GPT2 语言模型在各种任务中实现了最先进的表现。

Jan, 2022

表示很重要：为序贯决策进行离线预训练

本文研究了如何将离线数据转换为强化学习模型的有效训练，通过使用无监督学习目标进行预训练的方法，本文提出了一种能够改善从离线数据训练得到的强化学习模型性能的方案，并通过实验证明了其有效性。

Feb, 2021

深度强化学习中的预训练调查

该论文系统地评估了目前深度强化学习领域中采用的预训练方法，提出了分类体系、讨论了各个方面，并关注了未来可能遇到的挑战和需要探索的方向。

Nov, 2022

监督预训练可学习上下文强化学习

在这篇论文中，我们通过引入和研究 Decision-Pretrained Transformer（DPT）并展示它在上下文感知机器人决策中的运用，证明了大型变形机模型在多个数据集上的上下文学习能力，同时实现了对决策问题的研究及基于贝叶斯后验采样的跨任务性能。

Jun, 2023

离线预训练加速探索和表示学习

从单个离线数据集中分别学习噪声对比估计的状态表示和辅助奖励模型，能够显着提高 NetHack 基准测试的样本效率，同时突出了我们实验设置的各种组成部分和关键洞察。

Mar, 2023