通过层次强化学习重新思考决策 Transformer

Nov, 2023

通过层次强化学习重新思考决策 Transformer

Rethinking Decision Transformer via Hierarchical Reinforcement Learning

Yi Ma, Chenjun Xiao, Hebin Liang, Jianye Hao

TL;DR决策 Transformer 是一种创新算法，利用了转换器架构在强化学习中的最新进展；我们提出一个序列建模框架来研究通过分层强化学习进行顺序决策的方法，并展示了 DT 作为该框架的一个特例，同时讨论了潜在的失败选择；受到这些观察的启发，我们研究了如何联合优化高层和低层策略以实现拼接能力，从而进一步发展了新的离线强化学习算法；我们的实证结果清楚地表明，所提出的算法在多个控制和导航基准测试中明显优于 DT；我们希望我们的贡献可以在强化学习领域中推动转换器架构的整合。

Abstract

decision transformer (DT) is an innovative algorithm leveraging recent advances of the transformer architecture in reinforcement learning (RL). However, a notable limitation of DT is its reliance on recalling tra

decision transformer reinforcement learning sequential decision making hierarchical rl offline rl algorithms

发现论文，激发创造

决策变压器：通过序列建模的强化学习

本文基于序列建模思路，提出一种将强化学习抽象为序列建模问题的框架，使用 Transformer 架构和相关的语言建模技术（如 GPT-x 和 BERT）来解决增强学习任务，其中提出的 Decision Transformer 模型可以通过自回归模型来输出未来的动作并获得预期回报，其性能在 Atari、OpenAI Gym 和 Key-to-Door 等实验中达到了业界领先水平。

Jun, 2021

分层决策 Transformer

本文提出了一种层次算法用于从演示中学习序列模型，可解决强化学习中的任务策略估计问题，通过选择子目标来指导低层控制器完成任务，改善了以往方法的性能，并证明了其在多项任务中优于基线方法，表明层次模型适用于从演示中学习序列模型。

Sep, 2022

小样本策略概括的决策 Transformer

人类可以利用以往的经验从少量的演示中学习新的任务。我们提出了一种基于 Prompt-DT 的模型，它借助 Transformer 架构的序列建模能力和 prompt 框架，在离线 RL 中实现了少量样本的适应性。我们的实验表明，Prompt-DT 是一种强大的少量样本学习器，可以在目标任务上进行良好的泛化。

Jun, 2022

决策变压器作为部分可观测连续控制的基础模型

利用预训练的语言模型，探索决策变压器（DT）架构作为一种通用的控制器综合框架，同时展示了 DT 在各种控制任务上的能力，包括对非线性动力系统和部分微分方程进行控制，并具备出色的零样本泛化能力。

Apr, 2024

上下文决策变换器：通过分层思维链强化学习

提出了一种高层次的基于试错的方法，通过在环境中提供任务提示来实现离线强化学习的上下文学习，可以更高效地解决在线任务，并在长期任务中取得了最先进的结果。

May, 2024

高效在线策略适应的超级决策 Transformer

Hyper-Decision Transformer (HDT) framework proposes an adaptation module initialized by a hyper-network to enable efficient adaptation to novel tasks for offline reinforcement learning, demonstrating better performance than state-of-the-art baselines in terms of task success rates.

Apr, 2023

图决策变换器

本文介绍了一种离线强化学习的新方法 —— 图决策 Transformer（GDT）。GDT 将输入序列建模为因果图，以捕捉根本上不同概念之间的潜在依赖关系并促进时间和因果关系的学习。GDT 在图形输入处理中使用图形 Transformer，并在视觉任务中使用一个可选的序列 Transformer 来处理细粒度空间信息。实验表明，GDT 在基于图像的 Atari 和 OpenAI Gym 上的性能可以与最先进的离线强化学习方法相媲美或超越。

Mar, 2023

分层变压器是高效的元强化学习者

Hierarchical Transformers for Meta-Reinforcement Learning (HTrMRL) is an online meta-reinforcement learning approach that improves learning efficiency and generalization capabilities, outperforming the previous state-of-the-art algorithm in various tasks.

Feb, 2024

在线决策转换器

本文提出了基于序列建模的决策转换器（ODT）算法，该算法在离线预训练和在线调整中融合了序列级熵正则化和自回归建模目标，以实现高效的探索和调整。实验证明，在 D4RL 基准测试中，ODT 在绝对性能方面与最先进的方法具有竞争力，在微调过程中展现出更显著的提高。

Feb, 2022

使用决策 Transformer 解决持续离线强化学习

通过比较决策 Transformer（DT）和基于演员 - 评论者结构与经验回放的现有方法，我们研究了连续离线强化学习（CORL）框架中的 DT，发现 DT 在学习效率、分布转移缓解和零 - shot 泛化方面具有优势，但在监督参数更新时会加剧遗忘问题，我们引入多头 DT（MH-DT）和低秩自适应 DT（LoRA-DT）以减轻 DT 的遗忘问题。在 MoJuCo 和 Meta-World 基准上的广泛实验表明，我们的方法优于现有的 CORL 基准，在增强学习能力和内存效率方面展示出卓越的性能。

Jan, 2024