回归对齐决策转换器

Feb, 2024

Return-Aligned Decision Transformer

Tsunehiko Tanaka, Kenshi Abe, Kaito Ariu, Tetsuro Morimura, Edgar Simo-Serra

TL;DR离线强化学习中的传统方法旨在学习最大化累积奖励（也被称为回报）的最优策略。本文提出了一种名为 RADT（Return-Aligned Decision Transformer）的模型，通过解耦规范输入序列来增强回报与状态以及回报与行为之间的关系，从而有效地使实际回报与目标回报保持一致。广泛的实验证明，RADT 减少了基于 DT 方法的实际回报与目标回报之间的差异。

Abstract

Traditional approaches in offline reinforcement learning aim to learn the optimal policy that maximizes the cumulative reward, also known as return. However, as applications broaden, it becomes increasingly crucial to train agents that not only maximize the returns, but align the actua

offline reinforcement learning decision transformer target return return-aligned decision transformer discrepancies

发现论文，激发创造

离线强化学习的评论引导决策转换器

离线强化学习中的 CGDT 方法结合了基于值函数的方法和决策 Transformer 的轨迹建模能力，通过整合学习的值函数，保证了指定目标回报和动作预期回报之间的直接对齐，从而弥合了 RCSL 的确定性和基于值函数方法的概率特性之间的差距。在随机环境和 D4RL 基准数据集上进行的实证评估表明，CGDT 方法优于传统的 RCSL 方法，展示了 CGDT 在离线强化学习领域中提升技术水平并扩展 RCSL 在广泛强化学习任务中的适用性的潜力。

Dec, 2023

通过层次强化学习重新思考决策 Transformer

决策 Transformer 是一种创新算法，利用了转换器架构在强化学习中的最新进展；我们提出一个序列建模框架来研究通过分层强化学习进行顺序决策的方法，并展示了 DT 作为该框架的一个特例，同时讨论了潜在的失败选择；受到这些观察的启发，我们研究了如何联合优化高层和低层策略以实现拼接能力，从而进一步发展了新的离线强化学习算法；我们的实证结果清楚地表明，所提出的算法在多个控制和导航基准测试中明显优于 DT；我们希望我们的贡献可以在强化学习领域中推动转换器架构的整合。

Nov, 2023

决策变压器：通过序列建模的强化学习

本文基于序列建模思路，提出一种将强化学习抽象为序列建模问题的框架，使用 Transformer 架构和相关的语言建模技术（如 GPT-x 和 BERT）来解决增强学习任务，其中提出的 Decision Transformer 模型可以通过自回归模型来输出未来的动作并获得预期回报，其性能在 Atari、OpenAI Gym 和 Key-to-Door 等实验中达到了业界领先水平。

Jun, 2021

在线决策转换器

本文提出了基于序列建模的决策转换器（ODT）算法，该算法在离线预训练和在线调整中融合了序列级熵正则化和自回归建模目标，以实现高效的探索和调整。实验证明，在 D4RL 基准测试中，ODT 在绝对性能方面与最先进的方法具有竞争力，在微调过程中展现出更显著的提高。

Feb, 2022

图决策变换器

本文介绍了一种离线强化学习的新方法 —— 图决策 Transformer（GDT）。GDT 将输入序列建模为因果图，以捕捉根本上不同概念之间的潜在依赖关系并促进时间和因果关系的学习。GDT 在图形输入处理中使用图形 Transformer，并在视觉任务中使用一个可选的序列 Transformer 来处理细粒度空间信息。实验表明，GDT 在基于图像的 Atari 和 OpenAI Gym 上的性能可以与最先进的离线强化学习方法相媲美或超越。

Mar, 2023

离线强化学习的多目标决策 Transformer

离线强化学习以多目标优化问题的形式重新定义为序列建模任务，引入动作空间区域以解决变换模型的关注机制在输入上分配变化注意权重的潜在问题。实验证明这些提议使得变换模型更有效地利用关注机制，达到或超过当前最先进方法的性能。

Aug, 2023

用于离线反事实信息匹配的通用决策 Transformer

提出了广义决策转换器（GDT）以解决 HIM 问题，该方法能够从轨迹数据中提取多任务策略。 GDT 不仅恢复了决策转换器（DT）作为特殊情况，还引入了新的分类 DT（CDT）和双向 DT（BDT）以匹配未来的不同统计信息，并在 MuJoCo 连续控制基准测试中得到了很好的应用。

Nov, 2021

高效在线策略适应的超级决策 Transformer

Hyper-Decision Transformer (HDT) framework proposes an adaptation module initialized by a hyper-network to enable efficient adaptation to novel tasks for offline reinforcement learning, demonstrating better performance than state-of-the-art baselines in terms of task success rates.

Apr, 2023

决策变压器作为部分可观测连续控制的基础模型

利用预训练的语言模型，探索决策变压器（DT）架构作为一种通用的控制器综合框架，同时展示了 DT 在各种控制任务上的能力，包括对非线性动力系统和部分微分方程进行控制，并具备出色的零样本泛化能力。

Apr, 2024

使用因果反事实推理的迁移学习在决策 Transformer 中的应用

在强化学习中，通过应用因果推理和决策变换机制，从先前的环境中收集数据并将其用于新环境中的自适应转移学习可以成功地获得最佳策略，并保留大部分收益。

Oct, 2021