使用 Transformer 的视频传播经验研究

May, 2023

使用 Transformer 的视频传播经验研究

VDT: An Empirical Study on Video Diffusion with Transformers

Haoyu Lu, Guoxing Yang, Nanyi Fei, Yuqi Huo, Zhiwu Lu...

TL;DR本研究介绍了 Video Diffusion Transformer（VDT），它首次在基于扩散的视频生成中提出了 Transformer 的使用，通过模块化的时间和空间注意机制实现了 Transformer 块，并能够通过简单的令牌空间串联实现灵活的条件信息，VDT 的模块化设计促进了一种时空解耦的训练策略，其在视频生成、预测和动力学建模（即基于物理的 QA）任务上，包括自动驾驶，人类行动和基于物理模拟等领域的应用，表现出了出色的性能。

Abstract

This work introduces video diffusion transformer (VDT), which pioneers the use of transformers in diffusion-based video generation. It features transformer blocks with modularized temporal and spatial attention m

video diffusion transformer transformers temporal dependencies spatial-temporal representation dynamics modeling

发现论文，激发创造

TDViT：用于密集视频任务的时序扩张视频变换器

我们提出了一种时态扩张视频变换器 (Temporal Dilated Video Transformer, TDViT)，通过使用层次化的时态扩张变换器块 (Temporal Dilated Transformer Blocks, TDTB) 来提取时空表示，并有效缓解时态冗余的负面影响，从而模拟长程动态。通过在两个不同的密集视频基准上进行广泛实验，即用于视频物体检测的 ImageNet VID 和用于视频实例分割的 YouTube VIS，出色的实验结果证明了我们方法的出色效率、有效性和兼容性。

Feb, 2024

可变形视频转换器

本研究提出了 Deformable Video Transformer，利用动态预测小型视频数据块，根据运动信息决定模型在哪里观察视频，并优化变形注意机制，以获得更高的精度和更低的计算成本。

Mar, 2022

ViDT：一种高效且有效的全 Transformer 目标检测器

本论文介绍了 ViDT，一个将视觉和检测 Transformers 整合在一起，以构建一个有效且高效的物体检测器，其中包含了重新配置的注意力机制以及计算效率高的 Transformer 解码器来提高检测性能。ViDT 在 Microsoft COCO 基准数据集上的广泛评估结果表明，它在现有的完全基于 Transformer 的目标检测器中具有最佳的 AP 和延迟平衡，并且可以实现高扩展性的大型模型，其 AP 为 49.2。

Oct, 2021

ViViT: 一种视频视觉 Transformer

本研究提出一种基于纯 Transformer 模型的视频分类方法，采用从图像分类中成功应用的模型。通过从输入视频中提取时空标记，并通过一系列 Transformer 层进行编码。为了处理视频中遇到的长序列，我们提出了一些高效的模型变体，可分解输入的空间和时间维度。尽管 Transformer 模型只在有大型训练数据集时有效，但我们展示了如何有效规范化模型，并利用预训练的图像模型，使得我们能够在相对较小的数据集上进行训练。我们进行了彻底的削减研究，并在多个视频分类基准测试中实现了最先进的结果，包括 Kinetics 400 和 600，Epic Kitchens，Something-Something v2 和 Moments in Time，优于基于深度 3D 卷积网络的先前方法。为了促进进一步的研究，我们在以下链接中发布了代码。

Mar, 2021

Human4DiT: 基于 4D 扩散变换的自由观看人体视频生成

我们提出了一种新颖的方法，可以从单个图像在任意视角下生成高质量、时空连贯的人类视频。我们的框架结合了 U-Nets 的精确条件注入和扩散变换器的在视角和时间上捕捉全局相关性的优势。核心是一个级联的 4D 变换器架构，可以分解关注点以跨视角、时间和空间维度，实现对 4D 空间的高效建模。我们通过将人类身份、相机参数和时间信号注入到相应的变换器中来实现精确的条件设定。为了训练这个模型，我们策划了一个跨图像、视频、多视角数据和 3D/4D 扫描的多维数据集以及多维训练策略。我们的方法克服了以 GAN 或基于 UNet 的扩散模型为基础的先前方法在处理复杂动作和视角变化时的局限性。通过广泛的实验证明，我们的方法能够合成逼真、连贯和自由观察的人类视频，为虚拟现实和动画等领域的先进多媒体应用铺平了道路。我们的项目网站为 https URL。

May, 2024

V3D：视频扩散模型是有效的 3D 生成器

基于视频扩散模型和几何一致性先验的自动生成方法在 3D 生成方面取得了很大突破，能够生成高质量的网格和 3D 高斯帧，并且在场景级别的新视角合成方面取得了优越的性能表现。

Mar, 2024

探索预训练的文本到视频传播模型用于视频对象分割

探索了基于预训练的文本到视频 (T2V) 扩散模型产生的视觉表示，在视频理解任务中的应用，通过验证经典的参考视频对象分割 (R-VOS) 任务的假设，介绍了一个名为 “VD-IT” 的新框架，结合了预训练的 T2V 模型，利用文本信息作为条件输入，确保时间上的语义一致性，进一步加入图像标记作为补充文本输入，丰富特征集合以生成详细和细腻的掩码，并且通过大量实验证明，与常用的基于图像 / 视频预训练任务的视频骨干网络（例如 Video Swin Transformer）相比，固定的生成 T2V 扩散模型在保持语义对齐和时间一致性方面具有更好的潜力，在现有的标准基准上，VD-IT 取得了非常有竞争力的结果。

Mar, 2024

扩散模型生成逼真的视频

通过扩散建模，我们提出了一种基于转换器的 W.A.L.T 方法，用于逼真视频生成。我们采用了两个关键设计决策：一是使用因果编码器在统一的潜在空间中联合压缩图像和视频，实现跨模态的训练和生成；二是为了记忆和训练效率，我们使用了一个针对联合空间和时空生成建模的窗口注意力架构。这些设计决策使我们能够在已知的视频 (UCF-101 和 Kinetics-600) 和图像 (ImageNet) 生成基准上达到最先进的性能，而不使用分类器引导。最后，我们还训练了三个模型的串联，用于文本到视频生成任务，包括基本的潜在视频扩散模型和两个视频超分辨率扩散模型，以每秒 8 帧生成 512 x 896 分辨率的视频。

Dec, 2023

使用扩散视觉变换器解决遮蔽拼图难题

利用扩散转换器生成基于可视内容的图像拼图或视频帧的位置信息，从而准确地组装拼图块，即使存在缺失块，该方法在多个数据集上达到了最先进的性能。

Apr, 2024

一种可扩展、高效、有效的基于 Transformer 的物体检测器

本文介绍了 Vision 和 Detection Transformers（ViDT），ViDT 是一个有效和高效的物体检测器，它通过重新配置注意力模块来扩展 Swin Transformer 为独立的物体检测器，并采用多尺度特征和辅助技术来提高检测性能，同时还支持对象检测和实例分割的联合任务学习。该技术已在 Microsoft COCO 基准数据集上获得广泛的评估结果，是目前完全基于 Transformer 的最佳物体检测器之一。

Apr, 2022