使用扩散视觉变换器解决遮蔽拼图难题
本研究介绍了 Video Diffusion Transformer(VDT),它首次在基于扩散的视频生成中提出了 Transformer 的使用,通过模块化的时间和空间注意机制实现了 Transformer 块,并能够通过简单的令牌空间串联实现灵活的条件信息,VDT 的模块化设计促进了一种时空解耦的训练策略,其在视频生成、预测和动力学建模(即基于物理的 QA)任务上,包括自动驾驶,人类行动和基于物理模拟等领域的应用,表现出了出色的性能。
May, 2023
提出一种名为 Masked Jigsaw Puzzle (MJP) 的位置嵌入方法,用于解决 ViT 中的位置嵌入对隐私泄露的问题。实验结果表明,MJP 方法在一定程度的遮蔽之下,既可以提高性能和鲁棒性,也可以显著提高在梯度攻击下的隐私保护能力。
May, 2022
本研究提出了 Deformable Video Transformer,利用动态预测小型视频数据块,根据运动信息决定模型在哪里观察视频,并优化变形注意机制,以获得更高的精度和更低的计算成本。
Mar, 2022
本论文提出了一种使用掩码 Transformer 训练大型扩散模型的高效方法,实现了在不牺牲生成性能的情况下,仅使用 31%的训练时间达到与最先进的扩散变压器模型相同性能的效果。
Jun, 2023
X-MDPT 是一种新颖的扩散模型,用于姿势引导的人体图像生成,采用了基于掩模的扩散变换器,通过对潜在补丁的操作,与现有作品中常用的 Unet 结构有所不同。该模型包括三个关键模块:去噪扩散变换器,将条件整合成单一向量进行扩散过程的聚合网络,以及通过参考图像中的语义信息增强表示学习的掩模交叉预测模块。X-MDPT 在更大模型下展示了可扩展性,在 DeepFashion 数据集上优于现有方法,并在训练参数、训练时间和推理速度方面表现出高效性。我们的 33MB 紧凑模型在 FID 为 7.42 时超过了使用 11 倍少参数的先前 Unet 潜在扩散方法(FID 8.07)。我们的最佳模型相比像素级扩散使用了 2/3 的参数,并实现了 5.43 倍的更快推理。
Feb, 2024
本文研究了视觉 transformer 在基于扩散的生成学习中的有效性,并提出了一种新的模型 Diffusion Vision Transformers(DiffiT),该模型在多个条件和无条件综合任务中取得了最新的基准成绩,生成了高保真度图片。
Dec, 2023
通过使用新的训练方法和变量扩散时间步长,我们提出了一种基于转换器的音视频潜在扩散模型,可在任务不可知的情况下进行训练,并在推理过程中实现各种音视频生成任务,克服基线模型在生成条件输入上的时间和感知上的不连贯样本的局限性。
May, 2024
Diffusion transformers have challenges in quantization, but the proposed ViDiT-Q method achieves lossless W8A8 quantization and ViDiT-Q-MP achieves W4A8 with negligible visual quality degradation, resulting in memory optimization and latency speedup.
Jun, 2024
我们提出了一种时态扩张视频变换器 (Temporal Dilated Video Transformer, TDViT),通过使用层次化的时态扩张变换器块 (Temporal Dilated Transformer Blocks, TDTB) 来提取时空表示,并有效缓解时态冗余的负面影响,从而模拟长程动态。通过在两个不同的密集视频基准上进行广泛实验,即用于视频物体检测的 ImageNet VID 和用于视频实例分割的 YouTube VIS,出色的实验结果证明了我们方法的出色效率、有效性和兼容性。
Feb, 2024