可变形视频转换器
本文介绍了一种新颖的变形注意力模块,提出了 Deformable Attention Transformer,通过变形注意力实现了基于图像分类和密集预测任务的骨干模型,并在广泛的基准测试中取得了显著的改进。
Jan, 2022
通过引入一种新的可变形多头注意力模块,Deformable Attention Transformer(DAT)有效地解决了 Transformer 模型中存在的注意力范围过大和过于手工化的问题,从而提高视觉识别任务的性能。实验证明,DAT 在各种视觉识别基准测试中取得了最先进的结果,包括 85.9% 的 ImageNet 准确率,54.5 和 47.0 的 MS-COCO 实例分割 mAP,以及 51.5 的 ADE20K 语义分割 mIoU。
Sep, 2023
本研究介绍了 Video Diffusion Transformer(VDT),它首次在基于扩散的视频生成中提出了 Transformer 的使用,通过模块化的时间和空间注意机制实现了 Transformer 块,并能够通过简单的令牌空间串联实现灵活的条件信息,VDT 的模块化设计促进了一种时空解耦的训练策略,其在视频生成、预测和动力学建模(即基于物理的 QA)任务上,包括自动驾驶,人类行动和基于物理模拟等领域的应用,表现出了出色的性能。
May, 2023
提出了一种新型的 Deformable Patch(DePatch)模块,可以自适应地将图像分割为具有不同位置和比例的补丁,从而更好地保留了补丁中的语义信息。将该模块加入 Transformer 中,在图像分类和目标检测等任务上进行广泛评估。
Jul, 2021
在本研究中,我们首次针对变形 Transformer 模型进行了注意力劫持的对抗攻击,我们证明了这些攻击不会传递到变形 Transformer,这是由于其稀疏的注意力结构。我们的实验表明,仅对输入领域的 1% 施加了修复区域就能导致 0% 的 AP,并且我们还展示了这些攻击能够有效支持不同的攻击者场景,因为它们能够在攻击者的控制下重定向注意力。
Nov, 2023
本文提出了一种新的方法 GeoDeformer,它将几何理解直接集成到 ViT 架构中,用于捕捉动作视频中固有的几何变异,实验证明该方法在 UCF101、HMDB51 和 Mini-K200 数据集上取得了显著的准确度提升,并且能够有效表现几何变形及最小化几何变异。
Nov, 2023
我们提出了一种新的视频转换器的降压块 - 轨迹关注,并提出了一种解决计算和存储在输入大小上的二次依赖性的新方法,其中特别重要的是对于高分辨率或长视频。将这些想法应用于视频行动识别的具体任务中,并在 Kinetics,Something-Something V2 和 Epic-Kitchens 数据集上取得了最先进的结果。
Jun, 2021
本研究论文介绍了一种使用 Transformer 进行视频识别的模型,相较于其他视频识别模型,本模型计算效率更高。为实现此目的,本模型对全时空注意力机制进行两种简化处理:(a) 限制时间注意力于局部时间窗口内,(b) 使用高效的时空混合方法联合对空间和时间位置进行注意力处理,而不增加任何额外的成本。
Jun, 2021
本文提出了一种鲁棒、高效的循环视频修复转换器 ——RVRT, 它将局部相邻帧在全局循环框架内并行处理,并利用 “引导变形关注” 跨片段对齐预测多个相关位置,在基准数据集上达到了最先进的性能。
Jun, 2022
本篇论文尝试解决计算机视觉中 transformers 架构应用在视频数据时遇到的问题,通过引入可学习的混合函数 PatchBlender,使得 transformers 成功编码视频数据的时间组成部分并提升了基础模型性能。
Nov, 2022