面向未来条件的无监督预训练：决策 Transformer

ICMLMay, 2023

面向未来条件的无监督预训练：决策 Transformer

Future-conditioned Unsupervised Pretraining for Decision Transformer

Zhihui Xie, Zichuan Lin, Deheng Ye, Qiang Fu, Wei Yang...

TL;DR本文提出了一种基于未来信息进行无监督强化学习预训练的概念简单的方法 ——Pretrained Decision Transformer（PDT），并探究了如何在处理次优数据时提升其性能。实验证明，PDT 在离线数据中提取多样化的行为，且可通过在线微调控制采样高回报的行为。

Abstract

Recent research in offline reinforcement learning (RL) has demonstrated that return-conditioned supervised learning is a powerful paradigm for decision-making problems. While promising, return conditioning is limited to training data labeled with rewards and therefore faces challenges

offline reinforcement learning unsupervised pretraining pretrained decision transformer future conditioning generalization

发现论文，激发创造

监督预训练可学习上下文强化学习

在这篇论文中，我们通过引入和研究 Decision-Pretrained Transformer（DPT）并展示它在上下文感知机器人决策中的运用，证明了大型变形机模型在多个数据集上的上下文学习能力，同时实现了对决策问题的研究及基于贝叶斯后验采样的跨任务性能。

Jun, 2023

使用奖励预测预训练决策 Transformer 进行上下文多任务结构化赌博学习

本文研究多任务结构化赌博问题，目标是学习一个接近最优的算法以最小化累计遗憾。我们使用 Transformer 作为决策算法来学习该共享结构以便泛化到测试任务，并通过利用多样化的训练任务中的观测离线数据预测每个动作的奖励向量，而不需要训练期间对每个任务的最优动作的了解。在推断时，它使用奖励预测并采用各种探索策略在上下文中选择动作。我们的模型在几个结构化赌博问题上（线性、双线性、潜在、非线性）的一系列实验中优于其他 SOTA 方法，例如 DPT 和算法蒸馏。有趣的是，我们展示了即使没有了解潜在问题结构的情况下，我们的算法也能通过利用不同任务之间的共享结构来学习在上下文中的接近最优策略。我们进一步通过展示它们可以利用带有新动作的未见任务并仍然学习潜在结构来获得接近最优策略，从而扩展了预训练决策 Transformer 领域。我们通过几个实验证实了这一点，以展示我们的解决方案非常通用，并且在测试时具有广泛的潜在在线和离线策略应用。最后，我们在上下文多任务学习环境中理论上分析了我们算法的性能并获得了泛化界限。

Jun, 2024

基于监督预训练的证明上下文强化学习中的变压器决策者

该研究论文通过理论框架分析了用于 ICRL 的监督预训练 transformer 模型，提出了两种训练方法并证明了其能近似实现专家算法，同时证明了 ReLu 注意力的 transformer 能高效地近似最优在线强化学习算法，这为离线轨迹预训练的 transformer 模型的 ICRL 能力提供了首次量化分析。

Oct, 2023

理解预训练变压器在序贯决策中的训练和泛化

本文考虑了一类顺序决策问题的受监督预训练变压器模型，并且提出了一种解决预训练变压器训练及泛化问题的自然方法，该方法通过在训练过程中包含变压器生成的动作序列来提供更好的性能。同时，文章还分析了预训练变压器作为一种算法的特性，解释了其缺乏探索性和如何自动解决此问题，并在数值上将其与结构化算法相比较。

May, 2024

在线决策转换器

本文提出了基于序列建模的决策转换器（ODT）算法，该算法在离线预训练和在线调整中融合了序列级熵正则化和自回归建模目标，以实现高效的探索和调整。实验证明，在 D4RL 基准测试中，ODT 在绝对性能方面与最先进的方法具有竞争力，在微调过程中展现出更显著的提高。

Feb, 2022

决策变压器：通过序列建模的强化学习

本文基于序列建模思路，提出一种将强化学习抽象为序列建模问题的框架，使用 Transformer 架构和相关的语言建模技术（如 GPT-x 和 BERT）来解决增强学习任务，其中提出的 Decision Transformer 模型可以通过自回归模型来输出未来的动作并获得预期回报，其性能在 Atari、OpenAI Gym 和 Key-to-Door 等实验中达到了业界领先水平。

Jun, 2021

离线强化学习的评论引导决策转换器

离线强化学习中的 CGDT 方法结合了基于值函数的方法和决策 Transformer 的轨迹建模能力，通过整合学习的值函数，保证了指定目标回报和动作预期回报之间的直接对齐，从而弥合了 RCSL 的确定性和基于值函数方法的概率特性之间的差距。在随机环境和 D4RL 基准数据集上进行的实证评估表明，CGDT 方法优于传统的 RCSL 方法，展示了 CGDT 在离线强化学习领域中提升技术水平并扩展 RCSL 在广泛强化学习任务中的适用性的潜力。

Dec, 2023

使用因果反事实推理的迁移学习在决策 Transformer 中的应用

在强化学习中，通过应用因果推理和决策变换机制，从先前的环境中收集数据并将其用于新环境中的自适应转移学习可以成功地获得最佳策略，并保留大部分收益。

Oct, 2021

离线安全强化学习的时态逻辑条件决策变压器

我们提出了一种利用信号时态逻辑 (Signal Temporal Logic, STL) 指定复杂时态规则并使用决策变压器 (Decision Transformer, DT) 进行顺序建模的新框架，称为时态逻辑规范化决策变压器 (Specification-conditioned Decision Transformer, SDT)，在 DSRL 基准测试上的实证评估表明，与现有方法相比，SDT 学习安全且高奖励策略的能力更强，并且 SDT 在满足不同 STL 规范要求的程度方面表现良好。

Feb, 2024

图决策变换器

本文介绍了一种离线强化学习的新方法 —— 图决策 Transformer（GDT）。GDT 将输入序列建模为因果图，以捕捉根本上不同概念之间的潜在依赖关系并促进时间和因果关系的学习。GDT 在图形输入处理中使用图形 Transformer，并在视觉任务中使用一个可选的序列 Transformer 来处理细粒度空间信息。实验表明，GDT 在基于图像的 Atari 和 OpenAI Gym 上的性能可以与最先进的离线强化学习方法相媲美或超越。

Mar, 2023