基于槽位变形器的时间抽象非监督学习

Mar, 2022

基于槽位变形器的时间抽象非监督学习

Unsupervised Learning of Temporal Abstractions with Slot-based Transformers

Anand Gopalakrishnan, Kazuki Irie, Jürgen Schmidhuber, Sjoerd van Steenkiste

TL;DR本文提出了一种名为 SloTTAr 的新算法，该算法使用 Slot Attention 模块和自适应计算来学习关于无监督学习中子程序数量的信息，相比于竞争基线模型具有更好的性能和更快的训练速度。

Abstract

The discovery of reusable sub-routines simplifies decision-making and planning in complex reinforcement learning problems. Previous approaches propose to learn such temporal abstractions in a purely unsupervised

reinforcement learning temporal abstractions slot attention module adaptive computation sub-routine boundary points

发现论文，激发创造

利用 Transformer 实现强化学习中的可解释时间逻辑运动规划

通过将 Transformer 模块与强化学习相结合，开发了一个基于二次 Transformer 引导的时间逻辑框架（T2TL），以学习并执行各种自适应控制任务。其采用的 LTL 指令通过 co-safe LTL 指定，可以将复杂任务分解为可学习的子目标，从而将非马尔可夫奖励决策过程转换为马尔可夫过程，并通过同时学习多个子任务来提高采样效率。

Sep, 2022

基于位移切块的时空表示学习变压器

本研究针对视频分类问题，提出了一种基于 Transformer 与自注意力机制的空时表示学习方法，其中采用 shifted chunk Transformer 对视频帧间数据进行建模，通过局部到全局的多层次学习，构建了视频片段编码器，加强了长期时间依赖的建模能力，并在 Kinetics-400、Kinetics-600、UCF101 和 HMDB51 四个数据集上取得了优于现有最优结果的性能。

Aug, 2021

高效准确的非自回归多轮口语理解模型：捕捉显著的历史信息

本文提出了一种名为 SHA-LRT 的新型多轮对话 Spoken Language Understanding 模型，它通过历史 - 注意机制从历史话语中捕获显著的历史信息，并使用中间状态引导最终预测，有效提高了多轮对话中语言理解的性能，并在单轮 SLU 任务上表现良好。

Jun, 2022

基于 Transformer 的场景表示学习增强强化学习用于自动驾驶决策

本文提出了一种名为 Scene-Rep Transformer 的决策算法，使用改进后的场景表示编码和连续预测潜在蒸馏来提高强化学习决策能力，通过在 5 种具有挑战性的模拟城市场景中验证，演示了数据效率和成功率，安全性和效率等方面的实质性改进。

Aug, 2022

时空预测学习的三元注意力变换器

基于历史序列预测未来序列的时空预测学习提供了一种自监督学习范式，主流方法利用循环单元进行建模，但循环单元的并行性不足，常常在现实场景中表现欠佳。为了在保持计算效率的同时提高预测质量，我们提出了一种创新的三元注意力变换器，在设计上捕捉了帧间动态与帧内静态特征。通过将 Triplet Attention Module (TAM) 整合到模型中，我们取代了传统的循环单元，并对时空和通道维度中的自注意力机制进行了深入探索。在这种配置下：(i) 时序标记包含了帧间的抽象表示，有助于捕捉固有的时序依赖性；(ii) 空间和通道的注意力结合，通过在空间和通道维度上进行细粒度交互来改进帧内表示。交替运用时序、空间和通道级别的注意力使得我们的方法能够学习更复杂的短程和长程时空依赖关系。广泛的实验表明，我们的方法在移动物体轨迹预测、交通流预测、驾驶场景预测和人体动作捕捉等多种场景下性能超过了现有的基于循环和非循环方法，达到了最先进水平。

Oct, 2023

决策变压器：通过序列建模的强化学习

本文基于序列建模思路，提出一种将强化学习抽象为序列建模问题的框架，使用 Transformer 架构和相关的语言建模技术（如 GPT-x 和 BERT）来解决增强学习任务，其中提出的 Decision Transformer 模型可以通过自回归模型来输出未来的动作并获得预期回报，其性能在 Atari、OpenAI Gym 和 Key-to-Door 等实验中达到了业界领先水平。

Jun, 2021

一种有效的非自回归式口语理解模型

本文提出了一种新型非自回归对话系统核心部件 ——Layered-Refine Transformer，其包含 Slot Label Generation 和 Layered Refine Mechanism，通过在训练期间有效获取依赖信息，实现了在推断时显著提高了 SLU 性能（总体准确率提高 1.5% 以上）并加速了（超过 10 倍）推断过程。

Aug, 2021

基于骨架的动作识别中的时空元组变换

提出了一种新的时空元组 Transformer（STTFormer）方法，该方法着重解决了现有的基于 Transformer 的方法不能捕获帧之间不同关节之间的相关性的问题，在两个大型数据集上的表现优于现有技术方法。

Jan, 2022

Q-Learning 的稳定 Transformer-based 动作序列生成

本文提出了一种基于 Transformer 的 Deep Q-Learning 方法，该方法在稳定性和 Atari 基准方面表现良好，并为探究 Transformer 与强化学习之间的关系提供了额外见解。

Oct, 2020

时间序列价值 64 词：使用 Transformer 进行长期预测

本文提出了一种基于 Transformer 的多元时间序列预测和自我监督表征学习的有效设计，它基于两个关键组件：时间序列划分为子序列级别的片段，这些片段作为输入标记传递给 Transformer；通道独立性，其中每个通道包含一个单变量时间序列，其在所有系列中共享相同的嵌入和 Transformer 权重。PatchTST 可以显著提高长期预测准确性，超越 SOTA Transformer-based models，并在自我监督预训练任务中实现出色的微调性能。

Nov, 2022