TDViT：用于密集视频任务的时序扩张视频变换器

Feb, 2024

TDViT：用于密集视频任务的时序扩张视频变换器

TDViT: Temporal Dilated Video Transformer for Dense Video Tasks

Guanxiong Sun, Yang Hua, Guosheng Hu, Neil Robertson

TL;DR我们提出了一种时态扩张视频变换器 (Temporal Dilated Video Transformer, TDViT)，通过使用层次化的时态扩张变换器块 (Temporal Dilated Transformer Blocks, TDTB) 来提取时空表示，并有效缓解时态冗余的负面影响，从而模拟长程动态。通过在两个不同的密集视频基准上进行广泛实验，即用于视频物体检测的 ImageNet VID 和用于视频实例分割的 YouTube VIS，出色的实验结果证明了我们方法的出色效率、有效性和兼容性。

Abstract

deep video models, for example, 3D CNNs or video transformers, have achieved promising performance on sparse video tasks, i.e., predicting one result per video. However, challenges arise when adapting existing deep vide

deep video models temporal dilated video transformer spatiotemporal representations dense video tasks long-range dynamics

发现论文，激发创造

视频实例分割的时间高效视觉 Transformer

提出了一种名为 TeViT 的视觉 Transformer，它在视频实例分割任务中高效地对关键的时间信息进行建模，并在三个广泛采用的视觉实例分割基准测试中取得了最新的结果。

Apr, 2022

使用 Transformer 的视频传播经验研究

本研究介绍了 Video Diffusion Transformer（VDT），它首次在基于扩散的视频生成中提出了 Transformer 的使用，通过模块化的时间和空间注意机制实现了 Transformer 块，并能够通过简单的令牌空间串联实现灵活的条件信息，VDT 的模块化设计促进了一种时空解耦的训练策略，其在视频生成、预测和动力学建模（即基于物理的 QA）任务上，包括自动驾驶，人类行动和基于物理模拟等领域的应用，表现出了出色的性能。

May, 2023

ViViT: 一种视频视觉 Transformer

本研究提出一种基于纯 Transformer 模型的视频分类方法，采用从图像分类中成功应用的模型。通过从输入视频中提取时空标记，并通过一系列 Transformer 层进行编码。为了处理视频中遇到的长序列，我们提出了一些高效的模型变体，可分解输入的空间和时间维度。尽管 Transformer 模型只在有大型训练数据集时有效，但我们展示了如何有效规范化模型，并利用预训练的图像模型，使得我们能够在相对较小的数据集上进行训练。我们进行了彻底的削减研究，并在多个视频分类基准测试中实现了最先进的结果，包括 Kinetics 400 和 600，Epic Kitchens，Something-Something v2 和 Moments in Time，优于基于深度 3D 卷积网络的先前方法。为了促进进一步的研究，我们在以下链接中发布了代码。

Mar, 2021

SViTT: 稀疏视频文本 Transformer 的时间学习

通过引入边缘稀疏性和节点稀疏性的 SViTT 稀疏视频文本架构可以以较低的成本进行多帧推理，优于朴素变压器基线，并对多个视频文本检索和问答基准进行了训练，以及在更长的片段长度下是针对模型稀疏性（sparsity）进行了培训。

Apr, 2023

ViDiT-Q: 图像和视频生成的扩散变压器的高效准确量化

Diffusion transformers have challenges in quantization, but the proposed ViDiT-Q method achieves lossless W8A8 quantization and ViDiT-Q-MP achieves W4A8 with negligible visual quality degradation, resulting in memory optimization and latency speedup.

Jun, 2024

TransVOD: 基于空间 - 时间变换器的端到端视频目标检测

本文提出了一种基于 Transformer 和 DETR 的视频目标检测系统 TransVOD，通过时间 Transformer 和 Temporal Deformable Transformer Decoder 的设计，能够提高复杂的手工设计检测器的性能，同时在 ImageNet VID 数据集上获得了新的最佳结果。

Jan, 2022

可变形视频转换器

本研究提出了 Deformable Video Transformer，利用动态预测小型视频数据块，根据运动信息决定模型在哪里观察视频，并优化变形注意机制，以获得更高的精度和更低的计算成本。

Mar, 2022

ViDT：一种高效且有效的全 Transformer 目标检测器

本论文介绍了 ViDT，一个将视觉和检测 Transformers 整合在一起，以构建一个有效且高效的物体检测器，其中包含了重新配置的注意力机制以及计算效率高的 Transformer 解码器来提高检测性能。ViDT 在 Microsoft COCO 基准数据集上的广泛评估结果表明，它在现有的完全基于 Transformer 的目标检测器中具有最佳的 AP 和延迟平衡，并且可以实现高扩展性的大型模型，其 AP 为 49.2。

Oct, 2021

扩张时序关系对抗网络用于通用视频摘要

通过新的 DTR-GAN 框架，结合了时序动态关系、多尺度全局上下文信息和对抗学习等技术，实现视频的帧级别摘要，且在三个公共数据集上验证了其在视频理解上的有效性。

Apr, 2018

流媒体视频模型

提出了一种名为 “Streaming Vision Transformer” 的流式视频架构，利用具有内存功能的时间感知空间编码器产生帧级特征，供基于帧的视频任务使用；然后将帧级特征输入到与任务相关的时间解码器中，获得用于序列化任务的时空特征，该模型在行动识别任务中具有最先进的准确度，并在基于帧的多目标跟踪任务中具有竞争优势。

Mar, 2023