Context-Former: 通过潜在条件序列建模图像拼接

Jan, 2024

Context-Former: 通过潜在条件序列建模图像拼接

Context-Former: Stitching via Latent Conditioned Sequence Modeling

Ziqi Zhang, Jingzehua Xu, Zifeng Zhuang, Jinxin Liu, Donglin wang

TL;DR通过引入场景信息的模仿学习和序列建模以匹配专家轨迹，并将弱优轨迹片段无缝衔接，我们在离线强化学习中的决策变换器（DT）上提供了 DT 缺乏的衔接能力，实验证明 ContextFormer 在多种模仿学习设置下具有竞争力，超过了其他竞争的 DT 变体，展示了其卓越的性能。

Abstract

offline reinforcement learning (RL) algorithms can improve the decision making via stitching sub-optimal trajectories to obtain more optimal ones. This capability is a crucial factor in enabling RL to learn policies that are superior to the behavioral policy. On the other hand,

offline reinforcement learning decision transformer stitching capability contextual information-based imitation learning competitive performance

发现论文，激发创造

决策 ConvFormer: 元前馈中的局部过滤足以进行决策

通过使用多实体并行处理的结构，本研究提出了一种名为 Decision ConvFormer（DC）的新型动作序列预测模型，它在标准的强化学习基准测试中表现出了最先进的性能，并且对数据的底层含义有更好的理解和增强的泛化能力。

Oct, 2023

通过层次强化学习重新思考决策 Transformer

决策 Transformer 是一种创新算法，利用了转换器架构在强化学习中的最新进展；我们提出一个序列建模框架来研究通过分层强化学习进行顺序决策的方法，并展示了 DT 作为该框架的一个特例，同时讨论了潜在的失败选择；受到这些观察的启发，我们研究了如何联合优化高层和低层策略以实现拼接能力，从而进一步发展了新的离线强化学习算法；我们的实证结果清楚地表明，所提出的算法在多个控制和导航基准测试中明显优于 DT；我们希望我们的贡献可以在强化学习领域中推动转换器架构的整合。

Nov, 2023

上下文决策变换器：通过分层思维链强化学习

提出了一种高层次的基于试错的方法，通过在环境中提供任务提示来实现离线强化学习的上下文学习，可以更高效地解决在线任务，并在长期任务中取得了最先进的结果。

May, 2024

应对新的顺序决策任务的泛化学习

使用离线数据集，通过训练大型多样化模型，能够在只有少量示范数据的情况下，使自主代理器在新的任务上进行上下文学习。

Dec, 2023

序列建模是离线强化学习的强有力竞争者

该研究从数据子优劣性和任务复杂性两个方面探讨了离线强化学习的三种主要范式：Q-Learning、Imitation Learning 和 Sequence Modeling 的表现，并发现当接收到低质量数据并且奖励稀少时，Sequence Modeling 更优，因为它需要更多的数据但更加稳健且可以更好地适应任务复杂度。

May, 2023

决策变压器：通过序列建模的强化学习

本文基于序列建模思路，提出一种将强化学习抽象为序列建模问题的框架，使用 Transformer 架构和相关的语言建模技术（如 GPT-x 和 BERT）来解决增强学习任务，其中提出的 Decision Transformer 模型可以通过自回归模型来输出未来的动作并获得预期回报，其性能在 Atari、OpenAI Gym 和 Key-to-Door 等实验中达到了业界领先水平。

Jun, 2021

离线强化学习的多目标决策 Transformer

离线强化学习以多目标优化问题的形式重新定义为序列建模任务，引入动作空间区域以解决变换模型的关注机制在输入上分配变化注意权重的潜在问题。实验证明这些提议使得变换模型更有效地利用关注机制，达到或超过当前最先进方法的性能。

Aug, 2023

DiffStitch：基于扩散的轨迹拼接技术提升离线强化学习

离线强化学习中，学到的策略性能高度依赖于离线数据集的质量。然而，在许多情况下，离线数据集只包含非常有限的最优轨迹，这对离线强化学习算法提出了挑战，因为智能体必须能够转移到高奖励区域。为了解决这个问题，我们引入了一种基于扩散的轨迹拼接（DiffStitch）方法，这是一种新颖的基于扩散的数据增强技术，能够在轨迹之间生成连接转移。DiffStitch 有效地连接了低奖励轨迹与高奖励轨迹，形成全局最优轨迹，以解决离线强化学习算法面临的挑战。在 D4RL 数据集上进行的实证实验表明 DiffStitch 在 RL 方法中的有效性。值得注意的是，DiffStitch 在一步方法（IQL）、模仿学习方法（TD3+BC）和轨迹优化方法（DT）的性能上有了显著提升。

Feb, 2024

使用因果反事实推理的迁移学习在决策 Transformer 中的应用

在强化学习中，通过应用因果推理和决策变换机制，从先前的环境中收集数据并将其用于新环境中的自适应转移学习可以成功地获得最佳策略，并保留大部分收益。

Oct, 2021

基于监督预训练的证明上下文强化学习中的变压器决策者

该研究论文通过理论框架分析了用于 ICRL 的监督预训练 transformer 模型，提出了两种训练方法并证明了其能近似实现专家算法，同时证明了 ReLu 注意力的 transformer 能高效地近似最优在线强化学习算法，这为离线轨迹预训练的 transformer 模型的 ICRL 能力提供了首次量化分析。

Oct, 2023