使用扩散视觉变换器解决遮蔽拼图难题

Apr, 2024

使用扩散视觉变换器解决遮蔽拼图难题

Solving Masked Jigsaw Puzzles with Diffusion Vision Transformers

Jinyang Liu, Wondmgezahu Teshome, Sandesh Ghimire, Mario Sznaier, Octavia Camps

TL;DR利用扩散转换器生成基于可视内容的图像拼图或视频帧的位置信息，从而准确地组装拼图块，即使存在缺失块，该方法在多个数据集上达到了最先进的性能。

Abstract

Solving image and video jigsaw puzzles poses the challenging task of rearranging image fragments or video frames from unordered sequences to restore meaningful images and video sequences. Existing approaches ofte

image and video jigsaw puzzles rearranging diffusion transformers positional information missing pieces

发现论文，激发创造

使用 Transformer 的视频传播经验研究

本研究介绍了 Video Diffusion Transformer（VDT），它首次在基于扩散的视频生成中提出了 Transformer 的使用，通过模块化的时间和空间注意机制实现了 Transformer 块，并能够通过简单的令牌空间串联实现灵活的条件信息，VDT 的模块化设计促进了一种时空解耦的训练策略，其在视频生成、预测和动力学建模（即基于物理的 QA）任务上，包括自动驾驶，人类行动和基于物理模拟等领域的应用，表现出了出色的性能。

May, 2023

遮蔽拼图：一种用于视觉 Transformer 的多功能位置嵌入

提出一种名为 Masked Jigsaw Puzzle (MJP) 的位置嵌入方法，用于解决 ViT 中的位置嵌入对隐私泄露的问题。实验结果表明，MJP 方法在一定程度的遮蔽之下，既可以提高性能和鲁棒性，也可以显著提高在梯度攻击下的隐私保护能力。

May, 2022

可变形视频转换器

本研究提出了 Deformable Video Transformer，利用动态预测小型视频数据块，根据运动信息决定模型在哪里观察视频，并优化变形注意机制，以获得更高的精度和更低的计算成本。

Mar, 2022

掩蔽变换器应用于扩散模型快速训练

本论文提出了一种使用掩码 Transformer 训练大型扩散模型的高效方法，实现了在不牺牲生成性能的情况下，仅使用 31％的训练时间达到与最先进的扩散变压器模型相同性能的效果。

Jun, 2023

跨视角掩蔽扩散变压器用于人物图像合成

X-MDPT 是一种新颖的扩散模型，用于姿势引导的人体图像生成，采用了基于掩模的扩散变换器，通过对潜在补丁的操作，与现有作品中常用的 Unet 结构有所不同。该模型包括三个关键模块：去噪扩散变换器，将条件整合成单一向量进行扩散过程的聚合网络，以及通过参考图像中的语义信息增强表示学习的掩模交叉预测模块。X-MDPT 在更大模型下展示了可扩展性，在 DeepFashion 数据集上优于现有方法，并在训练参数、训练时间和推理速度方面表现出高效性。我们的 33MB 紧凑模型在 FID 为 7.42 时超过了使用 11 倍少参数的先前 Unet 潜在扩散方法（FID 8.07）。我们的最佳模型相比像素级扩散使用了 2/3 的参数，并实现了 5.43 倍的更快推理。

Feb, 2024

DiffiT：用于图像生成的扩散视觉 Transformer

本文研究了视觉 transformer 在基于扩散的生成学习中的有效性，并提出了一种新的模型 Diffusion Vision Transformers（DiffiT），该模型在多个条件和无条件综合任务中取得了最新的基准成绩，生成了高保真度图片。

Dec, 2023

一种适用于音视频生成的多功能扩散变压器

通过使用新的训练方法和变量扩散时间步长，我们提出了一种基于转换器的音视频潜在扩散模型，可在任务不可知的情况下进行训练，并在推理过程中实现各种音视频生成任务，克服基线模型在生成条件输入上的时间和感知上的不连贯样本的局限性。

May, 2024

ViDiT-Q: 图像和视频生成的扩散变压器的高效准确量化

Diffusion transformers have challenges in quantization, but the proposed ViDiT-Q method achieves lossless W8A8 quantization and ViDiT-Q-MP achieves W4A8 with negligible visual quality degradation, resulting in memory optimization and latency speedup.

Jun, 2024

TDViT：用于密集视频任务的时序扩张视频变换器

我们提出了一种时态扩张视频变换器 (Temporal Dilated Video Transformer, TDViT)，通过使用层次化的时态扩张变换器块 (Temporal Dilated Transformer Blocks, TDTB) 来提取时空表示，并有效缓解时态冗余的负面影响，从而模拟长程动态。通过在两个不同的密集视频基准上进行广泛实验，即用于视频物体检测的 ImageNet VID 和用于视频实例分割的 YouTube VIS，出色的实验结果证明了我们方法的出色效率、有效性和兼容性。

Feb, 2024

去噪视觉变换器

我们提出了一种噪声模型和去噪方法来解决 Vision Transformers 中存在的网格伪影问题，该方法能有效改善模型在语义和几何任务中的性能。

Jan, 2024