PDiT：交错融合感知与决策的 Transformer 用于深度强化学习

Dec, 2023

PDiT：交错融合感知与决策的 Transformer 用于深度强化学习

PDiT: Interleaving Perception and Decision-making Transformers for Deep Reinforcement Learning

Hangyu Mao, Rui Zhao, Ziyue Li, Zhiwei Xu, Hao Chen...

TL;DR该研究提出了一种深度强化学习网络，Perception and Decision-making Interleaving Transformer (PDiT)，它将两个 Transformer 结合在一起，一个负责环境感知，一个负责决策，并在不同设置中取得了优秀的性能，并提取出可解释的特征表示。

Abstract

Designing better deep networks and better reinforcement learning (RL) algorithms are both important for deep rl. This work studies the former. Specifically, the perception and →

deep rl perception and decision-making interleaving transformer environmental perception decision-making feature representations

发现论文，激发创造

通过层次强化学习重新思考决策 Transformer

决策 Transformer 是一种创新算法，利用了转换器架构在强化学习中的最新进展；我们提出一个序列建模框架来研究通过分层强化学习进行顺序决策的方法，并展示了 DT 作为该框架的一个特例，同时讨论了潜在的失败选择；受到这些观察的启发，我们研究了如何联合优化高层和低层策略以实现拼接能力，从而进一步发展了新的离线强化学习算法；我们的实证结果清楚地表明，所提出的算法在多个控制和导航基准测试中明显优于 DT；我们希望我们的贡献可以在强化学习领域中推动转换器架构的整合。

Nov, 2023

位置知识是一切所需：面向操作员学习的位置感知变压器 (PiT)

该论文提出了一种基于创新的位置注意机制构建的位置诱导变压器 (PiT)，相比经典的自注意力，PiT 在算子学习中表现出显著优势，并且在各种复杂算子学习任务和不同的偏微分方程基准测试中，PiT 在当前最先进的神经算子方法中展现出卓越性能。

May, 2024

上下文决策变换器：通过分层思维链强化学习

提出了一种高层次的基于试错的方法，通过在环境中提供任务提示来实现离线强化学习的上下文学习，可以更高效地解决在线任务，并在长期任务中取得了最先进的结果。

May, 2024

基于物理先验信息的决策变压器在配电系统修复中的探索：方法和性能分析

通过利用大型语言模型的强大计算能力，本研究首次探索了基于语言模型的物理知识决策变换器 (PIDT) 框架，以解决传统强化学习方法在电力系统运行中分布式系统修复 (DSR) 问题中的伸缩性挑战，并通过比较研究评估其性能。

Jun, 2024

监督预训练可学习上下文强化学习

在这篇论文中，我们通过引入和研究 Decision-Pretrained Transformer（DPT）并展示它在上下文感知机器人决策中的运用，证明了大型变形机模型在多个数据集上的上下文学习能力，同时实现了对决策问题的研究及基于贝叶斯后验采样的跨任务性能。

Jun, 2023

P2DT：基于渐进提示的决策 Transformer 对任务增量学习中的遗忘进行缓解

通过在新任务训练期间动态追加决策标记，我们的方法，Progressive Prompt Decision Transformer (P2DT)，改进了基于 transformer 的模型，从而促进了任务特定策略，减轻并行和离线强化学习情景中发生的灾难性遗忘，并且能够保留前期研究的知识并适应不断增加的任务环境。

Jan, 2024

SD-DiT：释放扩散变换器中自监督辨别的力量

通过引入自监督区分知识来增强扩散变压器 (Diffusion Transformer, DiT) 的训练效果，并在 ImageNet 数据集上进行了广泛实验，实现了训练成本和生成能力之间的竞争平衡。

Mar, 2024

带迭代注意力的通用感知器

本文介绍了 Perceiver 模型，它利用了不对关系进行假设的 Transformer，同时还能在处理非常大的输入时进行规模扩展，通过迭代地将输入压缩到一个紧凑的潜在瓶颈中，并且在图像、点云、音频、视频和视频 + 音频等多个模态的分类任务中达到了与最佳模型相当的性能。

Mar, 2021

PACT: 感知 - 行为因果变换器用于自回归机器人预训练

本研究提出了 PACT（Perception-Action Causal Transformer）范式，通过自监督方法直接利用机器人数据来构建机器人的自身表示，并在移动机器人领域进行了实证研究。研究结果表明，通过共享一个好的自身表示，我们可以降低整个模型的容量并加速实时部署这些系统。

Sep, 2022

DiT: 高效的视觉变压器与动态令牌路由

提出了一种数据相关的令牌路由策略用于图像令牌的动态视觉转换器 (DiT)，以适应对象尺度和视觉识别的变化，并通过选择多路径特征传播来精心调整图像表达的对象尺度和视觉识别的影响，从而实现更好的性能和良好的复杂度 / 准确度平衡。

Aug, 2023