离线强化学习的多目标决策 Transformer

Aug, 2023

离线强化学习的多目标决策 Transformer

Multi-Objective Decision Transformers for Offline Reinforcement Learning

Abdelghani Ghanem, Philippe Ciblat, Mounir Ghogho

TL;DR离线强化学习以多目标优化问题的形式重新定义为序列建模任务，引入动作空间区域以解决变换模型的关注机制在输入上分配变化注意权重的潜在问题。实验证明这些提议使得变换模型更有效地利用关注机制，达到或超过当前最先进方法的性能。

Abstract

offline reinforcement learning (RL) is structured to derive policies from static trajectory data without requiring real-time environment interactions. Recent studies have shown the feasibility of framing offline RL as a sequence modeling task, where the sole aim is to predict actions b

offline reinforcement learning sequence modeling transformer architecture multi-objective optimization action space regions

发现论文，激发创造

离线强化学习中的引导式 Transformer

本文提出了一种名为 Bootstrapped Transformer 的新算法，将 bootstrapping 思想和模型自我生成更多离线数据相结合，进一步提高序列模型训练的效果，该方法在两个离线 RL 基准测试中均取得了优于其他强基线方法的效果，并分析其生成的伪数据所展示出的特点可能会对离线 RL 训练产生启示。

Jun, 2022

离线强化学习问题的序列建模方法

本文介绍了如何使用序列建模来解决强化学习问题，使用 Transformer 架构来建模轨迹上的分布，并改造了波束搜索作为规划算法，在长时间序列预测、模仿学习、目标条件下的强化学习和离线强化学习等方面展示了该方法的灵活性和高效性，同时将该方法与基于模型的算法相结合，使其在稀疏奖励、长时间序列任务中表现为最先进的计划器。

Jun, 2021

图决策变换器

本文介绍了一种离线强化学习的新方法 —— 图决策 Transformer（GDT）。GDT 将输入序列建模为因果图，以捕捉根本上不同概念之间的潜在依赖关系并促进时间和因果关系的学习。GDT 在图形输入处理中使用图形 Transformer，并在视觉任务中使用一个可选的序列 Transformer 来处理细粒度空间信息。实验表明，GDT 在基于图像的 Atari 和 OpenAI Gym 上的性能可以与最先进的离线强化学习方法相媲美或超越。

Mar, 2023

在线决策转换器

本文提出了基于序列建模的决策转换器（ODT）算法，该算法在离线预训练和在线调整中融合了序列级熵正则化和自回归建模目标，以实现高效的探索和调整。实验证明，在 D4RL 基准测试中，ODT 在绝对性能方面与最先进的方法具有竞争力，在微调过程中展现出更显著的提高。

Feb, 2022

离线强化学习的轨迹概括

通过世界转换器进行线下强化学习的离线轨迹泛化方法（OTTO）在 D4RL 基准数据集上验证了其相对于最先进的线下强化学习方法具有显著优势。

Apr, 2024

决策变压器：通过序列建模的强化学习

本文基于序列建模思路，提出一种将强化学习抽象为序列建模问题的框架，使用 Transformer 架构和相关的语言建模技术（如 GPT-x 和 BERT）来解决增强学习任务，其中提出的 Decision Transformer 模型可以通过自回归模型来输出未来的动作并获得预期回报，其性能在 Atari、OpenAI Gym 和 Key-to-Door 等实验中达到了业界领先水平。

Jun, 2021

Q-Transformer: 基于自回归 Q 函数的可扩展离线强化学习

本文介绍了一种用于训练多任务策略的可扩展强化学习方法，该方法可以利用人类示范和自主收集的数据。通过使用 Transformer 作为 Q 函数的可扩展表示方法，并应用于离线时间差分备份的训练中，我们称之为 Q-Transformer。通过将每个动作维度离散化并将每个动作维度的 Q 值表示为单独的标记，我们可以应用有效的高容量序列建模技术进行 Q 学习。我们还提出了几个设计决策，使得 Q-Transformer 在离线强化学习训练中表现出良好性能，并且在大型多样的真实世界机器人操纵任务套件上，Q-Transformer 优于先前的离线强化学习算法和模仿学习技术。项目的网站和视频可在此 URL 找到。

Sep, 2023

多游戏决策转换器

本研究探讨了采用 transformer-based model 方法训练的多用途强化学习代理程序在 Atari 游戏中的表现，发现使用 Multi-Game Decision Transformer 模型的性能和可伸缩性最佳，并提供预训练模型和代码以鼓励该方向的进一步研究。

May, 2022

表示很重要：为序贯决策进行离线预训练

本文研究了如何将离线数据转换为强化学习模型的有效训练，通过使用无监督学习目标进行预训练的方法，本文提出了一种能够改善从离线数据训练得到的强化学习模型性能的方案，并通过实验证明了其有效性。

Feb, 2021

采用潜空间模型的基于图像的离线强化学习

该研究提出了一种基于模型的离线 RL 算法，该算法可扩展应用于高维视觉观测空间，通过学习潜在状态动力学模型并在潜在空间中表示不确定性来克服图像观测的挑战，并在多项具有挑战性的基于图像的移动和操纵任务中取得了优异的表现。

Dec, 2020