离线元强化学习的上下文变换器

Nov, 2022

Contextual Transformer for Offline Meta Reinforcement Learning

Runji Lin, Ye Li, Xidong Feng, Zhaowei Zhang, Xian Hong Wu Fung...

TL;DR本文探讨了如何通过 prompt tuning 和 Contextual Meta Transformer 算法来提高基于序列建模的离线强化学习算法的性能，并在三种不同的离线 RL 设置下进行了广泛的实验，验证了方法的高效性和普适性。

Abstract

The pretrain-finetuning paradigm in large-scale sequence models has made significant progress in natural language processing and computer vision tasks. However, such a paradigm is still hindered by several challenges in

pretrain-finetuning paradigm reinforcement learning offline-rl algorithms prompt tuning meta-rl

发现论文，激发创造

离线强化学习能助力自然语言理解吗？

本论文旨在探究离线强化学习和语言建模之间的潜在关系，通过使用 Transformer 模型对不同的离线强化学习任务进行预训练，并在各种与语言相关的任务上进行评估，结果表明，与使用语言建模的模型相比，我们的 RL 预训练模型具有接近的性能，从而验证了这两种模态之间存在着共同的有用特征，进一步探索了如马尔可夫性和 RL 轨迹的顺序性等因素的潜在关系。

Sep, 2022

离线元强化学习与在线自我监督

本文提出了一种混合离线元强化学习算法，能够使用有奖离线数据来元训练自适应策略，并通过收集额外的非监督在线数据来补偿分布偏移，这种算法比以前的元 RL 方法在模拟机器人运动和操纵任务中表现更为优异。

Jul, 2021

基于上下文、离线元强化学习的证明改进 —— 关注与对比学习

本文针对离线强化学习中的元学习问题，通过引入任务注意力机制和对比学习目标来提高任务表示的鲁棒性，从而改进了现有算法，并在多个元强化学习基准测试中展示了优越的性能和稳健性。

Feb, 2021

在线决策转换器

本文提出了基于序列建模的决策转换器（ODT）算法，该算法在离线预训练和在线调整中融合了序列级熵正则化和自回归建模目标，以实现高效的探索和调整。实验证明，在 D4RL 基准测试中，ODT 在绝对性能方面与最先进的方法具有竞争力，在微调过程中展现出更显著的提高。

Feb, 2022

离线强化学习中的引导式 Transformer

本文提出了一种名为 Bootstrapped Transformer 的新算法，将 bootstrapping 思想和模型自我生成更多离线数据相结合，进一步提高序列模型训练的效果，该方法在两个离线 RL 基准测试中均取得了优于其他强基线方法的效果，并分析其生成的伪数据所展示出的特点可能会对离线 RL 训练产生启示。

Jun, 2022

基于监督预训练的证明上下文强化学习中的变压器决策者

该研究论文通过理论框架分析了用于 ICRL 的监督预训练 transformer 模型，提出了两种训练方法并证明了其能近似实现专家算法，同时证明了 ReLu 注意力的 transformer 能高效地近似最优在线强化学习算法，这为离线轨迹预训练的 transformer 模型的 ICRL 能力提供了首次量化分析。

Oct, 2023

释放预训练语言模型在离线强化学习中的能力

离线强化学习 (LaMo) 是一种基于决策 Transformer 的通用框架，旨在通过使用预训练语言模型和无广义知识的 LoRA 微调方法进行生成嵌入，并在稀奖励和有限数据样本任务中取得了最先进的性能。

Oct, 2023

Wikipedia 是否能帮助离线强化学习？

本研究探索了将强化学习作为序列建模的一种形式，并研究了预训练序列模型在其他领域（视觉、语言）上进行细调时的可迁移性，同时提出了改善这些领域之间转移的技术。结果表明，在各种环境下加速训练 3-6 倍，并使用 Wikipedia 预训练和 GPT2 语言模型在各种任务中实现了最先进的表现。

Jan, 2022

离线强化学习的多目标决策 Transformer

离线强化学习以多目标优化问题的形式重新定义为序列建模任务，引入动作空间区域以解决变换模型的关注机制在输入上分配变化注意权重的潜在问题。实验证明这些提议使得变换模型更有效地利用关注机制，达到或超过当前最先进方法的性能。

Aug, 2023

基于信息论的基于上下文的离线元强化学习框架

离线元强化学习（OMRL）的出现作为离线 RL 和元 RL 的结合在使 RL 代理能够多任务和快速适应并安全地获取知识方面显示出了巨大的潜力。我们提出将离线元强化学习的几个关键里程碑整合到一个统一的信息论框架中，并展示了现有的上下文 OMRL 算法本质上是通过实现各种近似界限优化任务变量 $oldsymbol {M}$ 与其潜在表示 $oldsymbol {Z}$ 之间的相互信息目标。基于理论见解和信息瓶颈原理，我们提出了一种新的算法称为 UNICORN，在 RL 基准、上下文转变场景、数据质量和深度学习架构的广泛领域中展示了卓越的泛化能力，达到了新的技术水平。我们相信我们的框架可以为新的优化界限和上下文 OMRL 算法开辟新的研究方向。

Feb, 2024