利用密集时空位置编码追踪目标

Oct, 2022

Track Targets by Dense Spatio-Temporal Position Encoding

Jinkun Cao, Hao Wu, Kris Kitani

TL;DR提出一种新的范式，使用 transformers 对视频中的目标位置进行编码，该模型 DST (position encoding) 以密集的像素方式编码了空间时间位置信息，并将其与变压器结合以进行多目标跟踪。

Abstract

In this work, we propose a novel paradigm to encode the position of targets for target tracking in videos using transformers. The proposed paradigm, Dense Spatio-Temporal (DST) →

target tracking transformers position encoding multi-object tracking spatio-temporal information

发现论文，激发创造

学习时空变换器进行视觉跟踪

本文提出一种新的追踪架构，它以编码 - 解码变压器作为核心组件，将目标追踪转化为直接边界框预测问题，从而实现了端到端模型，无需使用任何先前设定的锚点或提案等后处理步骤。

Mar, 2021

视频修复的解耦空时变形器

提出了 Decoupled Spatial-Temporal Transformer (DSTT) 来改进视频修复效果。该方法通过分解学习空间 - 时间注意力来提高时间和空间精度，同时采用分层编码器，形成更好的空间 - 时间注意力机制。实验证明，该方法比现有的视频修复方法具有更好的效率和性能。

Apr, 2021

Transformer 的动态位置编码

本研究提出了一种新的动态位置编码（DPE）方法，通过新的位置嵌入来纠正目标单词的位置信息，相较于传统 Transformers 在英德法意四种翻译任务中取得了显著的性能提升。

Apr, 2022

可学习的傅里叶特征用于多维空间位置编码

本文提出了一种基于可学习的 Fourier 特征的新型位置编码方法，能够优化空间多维位置的表示、提高精度和加速收敛速度。

Jun, 2021

Transformer 的简单有效位置编码

本文介绍了一种新的机制 ——Decoupled Positional Attention，将位置和段信息编码为 Transformer 模型，提高了训练和推理效率，在 GLUE、XTREME 和 WMT 基准测试中实现了竞争性表现，并进一步将该方法推广到远程的 transformers，显示了性能提升。

Apr, 2021

基于 Transformer 的双目图像立体感知三维物体检测

本文提出 TS3D，一种基于 Transformer 的立体感知 3D 物体检测器，其中包括一种新颖的视差位置编码模型（DAPE）和 Stereo Reserving Feature Pyramid Network（SRFPN），使其在 KITTI 测试集上取得了 41.29％的平均精度。

Apr, 2023

改进 transformer 的位置编码以用于多元时间序列分类

研究了 transformers 在时间序列数据中应用时所需的位置编码方法，提出了一种新的绝对位置编码方法，称为时间绝对位置编码（tAPE）；提出了一种高效的相对位置编码实现方法（eRPE），并将 tAPE/eRPE 与卷积输入编码相结合，提出了一种新的多元时间序列分类（MTSC）模型 ConvTran。此模型在 32 个多元时间序列数据集上进行的广泛实验表明，优于最先进的卷积和 transformer-based 模型。

May, 2023

基于时空深度嵌入的高俯视视频车辆轨迹重建

本文介绍了一种基于 STMap 的交通轨迹重建方法，采用了 Spatial-Temporal Deep Embedding（STDE）模型，在像素和实例级别上形成奇偶校验约束，以生成用于 STMap 上车辆条带分割的实例感知嵌入，采用 mutex-watershed 算法最终获得聚类结果。

Sep, 2022

多目标跟踪的表示对齐对比正则化

利用轻量级单层变压器编码器模型化时空关系，通过基于特征对齐的对比正则化损失将特征引入数据关联阶段，以提高现有跟踪网络的性能和解释性。

Apr, 2024

自动驾驶中基于 3D 激光雷达的视频物体检测的时空通道变换器

本文提出了一种名为 Temporal-Channel Transformer 的新型转换器，用于从 Lidar 数据中模拟时空域和通道域关系以进行视频物体检测，并以网格体素为基础在 nuScenes 基准测试中取得最先进的性能。

Nov, 2020