离线强化学习的最大回报序列建模

ICMLMay, 2024

离线强化学习的最大回报序列建模

Reinformer: Max-Return Sequence Modeling for offline RL

Zifeng Zhuang, Dengyun Peng, jinxin Liu, Ziqi Zhang, Donglin Wang

TL;DR该论文介绍了最大回报的序列建模概念，提出了 Reinforced Transformer（Reinformer）作为一个整合了最大化回报目标的序列模型。Reinformer 在训练阶段将最大化回报的目标纳入模型，并在推断时引导最优动作的选择，从而在轨迹拼接能力上优于传统强化学习方法和现有的序列模型。

Abstract

As a data-driven paradigm, offline reinforcement learning (RL) has been formulated as sequence modeling that conditions on the hindsight information including returns, goal or future trajectory. Although promisin

offline reinforcement learning sequence modeling max-return sequence modeling reinforced transformer trajectory stitching

发现论文，激发创造

离线强化学习问题的序列建模方法

本文介绍了如何使用序列建模来解决强化学习问题，使用 Transformer 架构来建模轨迹上的分布，并改造了波束搜索作为规划算法，在长时间序列预测、模仿学习、目标条件下的强化学习和离线强化学习等方面展示了该方法的灵活性和高效性，同时将该方法与基于模型的算法相结合，使其在稀疏奖励、长时间序列任务中表现为最先进的计划器。

Jun, 2021

决策变压器：通过序列建模的强化学习

本文基于序列建模思路，提出一种将强化学习抽象为序列建模问题的框架，使用 Transformer 架构和相关的语言建模技术（如 GPT-x 和 BERT）来解决增强学习任务，其中提出的 Decision Transformer 模型可以通过自回归模型来输出未来的动作并获得预期回报，其性能在 Atari、OpenAI Gym 和 Key-to-Door 等实验中达到了业界领先水平。

Jun, 2021

序列建模是离线强化学习的强有力竞争者

该研究从数据子优劣性和任务复杂性两个方面探讨了离线强化学习的三种主要范式：Q-Learning、Imitation Learning 和 Sequence Modeling 的表现，并发现当接收到低质量数据并且奖励稀少时，Sequence Modeling 更优，因为它需要更多的数据但更加稳健且可以更好地适应任务复杂度。

May, 2023

序列建模中应对乐观主义策略的强化学习

本研究提出了一种解决优化偏差的方法，即通过显式分离策略和世界模型，并在测试时寻找能够应对多种可能未来环境的策略，以更好地完成多种自动驾驶任务。

Jul, 2022

离线强化学习的多目标决策 Transformer

离线强化学习以多目标优化问题的形式重新定义为序列建模任务，引入动作空间区域以解决变换模型的关注机制在输入上分配变化注意权重的潜在问题。实验证明这些提议使得变换模型更有效地利用关注机制，达到或超过当前最先进方法的性能。

Aug, 2023

离线强化学习中的引导式 Transformer

本文提出了一种名为 Bootstrapped Transformer 的新算法，将 bootstrapping 思想和模型自我生成更多离线数据相结合，进一步提高序列模型训练的效果，该方法在两个离线 RL 基准测试中均取得了优于其他强基线方法的效果，并分析其生成的伪数据所展示出的特点可能会对离线 RL 训练产生启示。

Jun, 2022

深度强化学习和信息最大化学习

本文介绍了一种基于 Deep InfoMax (DIM) 的训练方法，目的是让模型预测未来状态，从而提高处理强化学习问题的性能。测试表明，这种方法在多个人工场景中学到了预测未来状态的表示，并应用于 C51 模型中，在连续学习任务和 Procgen 环境中实现了性能提升。

Jun, 2020

基于深度强化学习的序列到序列模型

本文介绍最近相结合的 seq2seq，深度神经网络和加强学习模型，考虑如何在决策制定的 RL 方法中利用序列到序列模型的长期记忆能力来解决复杂的问题，提出并探讨 RL 方法解决序列到序列模型领域常见的曝光偏差而且在训练与测试的指标上也不一致的两个问题，并提供了大多数 RL 模型的源代码以支持抽象文本摘要的复杂任务。

May, 2018

通过迭代能量最小化进行序列模型规划

本研究提出了一种将规划与序列模型相结合的方法，基于迭代能量最小化的思路，通过训练掩盖语言模型以捕捉动作轨迹的隐式能量函数，并将规划形式化为最小化能量的轨迹，实现了在不同任务上改进强化学习性能，并证明了通过迭代优化程序能够实现新的任务泛化、测试时间约束自适应和计划组合的能力。

Mar, 2023

使用简单序列先验的强化学习

使用信息熵的目标函数和可压缩动作序列作为先验，提出了一种新的强化学习算法，能够学习解决包含可压缩序列动作的任务。在一系列连续控制任务中表现比最先进的无模型方法更好，并且产生出强大的信息正则化代理，能够对噪声观测进行鲁棒控制和执行开环控制。

May, 2023