离线强化学习能助力自然语言理解吗？

Sep, 2022

离线强化学习能助力自然语言理解吗？

Can Offline Reinforcement Learning Help Natural Language Understanding?

Ziqi Zhang, Yile Wang, Yue Zhang, Donglin Wang

TL;DR本论文旨在探究离线强化学习和语言建模之间的潜在关系，通过使用 Transformer 模型对不同的离线强化学习任务进行预训练，并在各种与语言相关的任务上进行评估，结果表明，与使用语言建模的模型相比，我们的 RL 预训练模型具有接近的性能，从而验证了这两种模态之间存在着共同的有用特征，进一步探索了如马尔可夫性和 RL 轨迹的顺序性等因素的潜在关系。

Abstract

pre-training has been a useful method for learning implicit transferable knowledge and it shows the benefit of offering complementary features across different modalities. Recent work mainly focuses on the modalities such as image and text, for example, studies show that visual feature

pre-training offline reinforcement learning language modeling transformer markov property

发现论文，激发创造

释放预训练语言模型在离线强化学习中的能力

离线强化学习 (LaMo) 是一种基于决策 Transformer 的通用框架，旨在通过使用预训练语言模型和无广义知识的 LoRA 微调方法进行生成嵌入，并在稀奖励和有限数据样本任务中取得了最先进的性能。

Oct, 2023

Wikipedia 是否能帮助离线强化学习？

本研究探索了将强化学习作为序列建模的一种形式，并研究了预训练序列模型在其他领域（视觉、语言）上进行细调时的可迁移性，同时提出了改善这些领域之间转移的技术。结果表明，在各种环境下加速训练 3-6 倍，并使用 Wikipedia 预训练和 GPT2 语言模型在各种任务中实现了最先进的表现。

Jan, 2022

使用合成数据进行预训练有助于离线强化学习

最近的研究表明，对于离线深度强化学习，通过在大型语言语料库中对决策 Transformer 进行预训练可以提高下游性能。本文首先证明了语言对于提升性能并非必要，事实上，通过对一小部分迭代进行合成 IID 数据的预训练即可与大型语言语料库的预训练相匹配；此外，使用一步马尔科夫链生成的数据进行预训练还可以进一步提高性能。受这些实验结果的启发，本文还考虑了保守 Q 学习（CQL）的预训练，它是一种基于 Q 学习的离线深度强化学习算法，通常使用多层感知机（MLP）骨干网络。令人惊讶的是，通过对一小部分迭代使用简单的合成数据进行预训练也可以改善 CQL，在 D4RL Gym 运动数据集上提供持续的性能改进。本文的结果不仅说明了离线深度强化学习中预训练的重要性，还表明预训练数据可以是合成的，并通过非常简单的机制生成。

Oct, 2023

表示很重要：为序贯决策进行离线预训练

本文研究了如何将离线数据转换为强化学习模型的有效训练，通过使用无监督学习目标进行预训练的方法，本文提出了一种能够改善从离线数据训练得到的强化学习模型性能的方案，并通过实验证明了其有效性。

Feb, 2021

离线强化学习下的以人为中心的对话训练

通过在线收集人类反馈数据，使用离线强化学习算法训练对话模型，识别并融合对话线索来产生更好的对话。

Oct, 2020

利用大型语言模型指导强化学习的预训练

提出了一种名为 ELLM（LLM 探索）的方法，它利用来自文本语料库的背景知识来塑造探索，通过利用大规模语言模型预训练，无需人介入便能引导智能体朝向有人类意义的和可能有用的行为方向，通过在 Crafter 游戏环境和 Housekeep 机器人模拟器中的实验，证明了 ELLM 训练的代理在预训练期间具有更好的常识行为覆盖，并且在一系列下游任务中通常与或优于性能。

Feb, 2023

基于自然语言启发的强化学习综述

提出了将自然语言理解与强化学习紧密结合的想法，并对现有技术及未来研究方向进行了调研。

Jun, 2019

小数据集，巨大增益：通过基于模型的增强学习的离线预训练来提升性能

基于离线数据的强化学习预训练改进的模型数据增强策略，可以减少所需数据规模，并大幅提高在线微调效果和降低环境交互次数。

Dec, 2023

离线预训练加速探索和表示学习

从单个离线数据集中分别学习噪声对比估计的状态表示和辅助奖励模型，能够显着提高 NetHack 基准测试的样本效率，同时突出了我们实验设置的各种组成部分和关键洞察。

Mar, 2023

离线强化学习在对话回复生成中的有效性

研究通过离线强化学习方法在对话响应生成中最大化序列级目标，对多个数据集、模型和度量进行全面评估，离线强化学习相比于教师强制训练能够明显提高性能却不会导致训练不稳定或牺牲实际训练预算。

Jul, 2023