可变形视频转换器

CVPRMar, 2022

Deformable Video Transformer

Jue Wang, Lorenzo Torresani

TL;DR本研究提出了 Deformable Video Transformer，利用动态预测小型视频数据块，根据运动信息决定模型在哪里观察视频，并优化变形注意机制，以获得更高的精度和更低的计算成本。

Abstract

video transformers have recently emerged as an effective alternative to convolutional networks for action classification. However, most prior video transformers adopt either global space-time attention or hand-de

video transformers deformable video transformer motion information attention mechanism action classification

发现论文，激发创造

具有可变形注意力的视觉 Transformer

本文介绍了一种新颖的变形注意力模块，提出了 Deformable Attention Transformer，通过变形注意力实现了基于图像分类和密集预测任务的骨干模型，并在广泛的基准测试中取得了显著的改进。

Jan, 2022

DAT++：具有可变形注意力的空间动态视觉变换器

通过引入一种新的可变形多头注意力模块，Deformable Attention Transformer（DAT）有效地解决了 Transformer 模型中存在的注意力范围过大和过于手工化的问题，从而提高视觉识别任务的性能。实验证明，DAT 在各种视觉识别基准测试中取得了最先进的结果，包括 85.9% 的 ImageNet 准确率，54.5 和 47.0 的 MS-COCO 实例分割 mAP，以及 51.5 的 ADE20K 语义分割 mIoU。

Sep, 2023

使用 Transformer 的视频传播经验研究

本研究介绍了 Video Diffusion Transformer（VDT），它首次在基于扩散的视频生成中提出了 Transformer 的使用，通过模块化的时间和空间注意机制实现了 Transformer 块，并能够通过简单的令牌空间串联实现灵活的条件信息，VDT 的模块化设计促进了一种时空解耦的训练策略，其在视频生成、预测和动力学建模（即基于物理的 QA）任务上，包括自动驾驶，人类行动和基于物理模拟等领域的应用，表现出了出色的性能。

May, 2023

DPT: 可变形基于块的 Transformer 用于视觉识别

提出了一种新型的 Deformable Patch（DePatch）模块，可以自适应地将图像分割为具有不同位置和比例的补丁，从而更好地保留了补丁中的语义信息。将该模块加入 Transformer 中，在图像分类和目标检测等任务上进行广泛评估。

Jul, 2021

注意力不足有序化！通过合作对抗修补欺骗可变形视觉 Transformer

在本研究中，我们首次针对变形 Transformer 模型进行了注意力劫持的对抗攻击，我们证明了这些攻击不会传递到变形 Transformer，这是由于其稀疏的注意力结构。我们的实验表明，仅对输入领域的 1% 施加了修复区域就能导致 0% 的 AP，并且我们还展示了这些攻击能够有效支持不同的攻击者场景，因为它们能够在攻击者的控制下重定向注意力。

Nov, 2023

GeoDeformer：基于几何变形的动作识别变压器

本文提出了一种新的方法 GeoDeformer，它将几何理解直接集成到 ViT 架构中，用于捕捉动作视频中固有的几何变异，实验证明该方法在 UCF101、HMDB51 和 Mini-K200 数据集上取得了显著的准确度提升，并且能够有效表现几何变形及最小化几何变异。

Nov, 2023

视频 Transformer 中的轨迹注意力

我们提出了一种新的视频转换器的降压块 - 轨迹关注，并提出了一种解决计算和存储在输入大小上的二次依赖性的新方法，其中特别重要的是对于高分辨率或长视频。将这些想法应用于视频行动识别的具体任务中，并在 Kinetics，Something-Something V2 和 Epic-Kitchens 数据集上取得了最先进的结果。

Jun, 2021

视频 Transformer 的时空混合注意力

本研究论文介绍了一种使用 Transformer 进行视频识别的模型，相较于其他视频识别模型，本模型计算效率更高。为实现此目的，本模型对全时空注意力机制进行两种简化处理：(a) 限制时间注意力于局部时间窗口内，(b) 使用高效的时空混合方法联合对空间和时间位置进行注意力处理，而不增加任何额外的成本。

Jun, 2021

循环视频修复变换器与引导变形注意力

本文提出了一种鲁棒、高效的循环视频修复转换器 ——RVRT, 它将局部相邻帧在全局循环框架内并行处理，并利用 “引导变形关注” 跨片段对齐预测多个相关位置，在基准数据集上达到了最先进的性能。

Jun, 2022

PatchBlender：视频 Transformer 的动作先验

本篇论文尝试解决计算机视觉中 transformers 架构应用在视频数据时遇到的问题，通过引入可学习的混合函数 PatchBlender，使得 transformers 成功编码视频数据的时间组成部分并提升了基础模型性能。

Nov, 2022