DiT: 高效的视觉变压器与动态令牌路由

Aug, 2023

DiT: 高效的视觉变压器与动态令牌路由

DiT: Efficient Vision Transformers with Dynamic Token Routing

Yuchen Ma, Zhengcong Fei, Junshi Huang

TL;DR提出了一种数据相关的令牌路由策略用于图像令牌的动态视觉转换器 (DiT)，以适应对象尺度和视觉识别的变化，并通过选择多路径特征传播来精心调整图像表达的对象尺度和视觉识别的影响，从而实现更好的性能和良好的复杂度 / 准确度平衡。

Abstract

Recently, the tokens of images share the same static data flow in many dense networks. However, challenges arise from the variance among the objects in images, such as large variations in the spatial scale and difficulties of recognition for visual entities. In this paper, we propose a

tokens data-dependent token routing dynamic vision transformer image representation dit

发现论文，激发创造

动态令牌传递变换器用于语义分割

通过引入动态令牌过渡视觉转换器（DoViT）对图像进行语义分割，适应性地降低了不同复杂度图像的推理成本，通过逐渐停止部分易处理的令牌的自注意计算并保持难处理的令牌继续前进直到满足停止标准，利用轻量级辅助头部做出令牌传递决策并将令牌划分为保留 / 停止部分，通过令牌的分离计算，使用稀疏令牌加速自注意层，并在硬件上保持友好性，构建令牌重建模块以收集和重置分组令牌到序列中的原始位置，这对于预测正确的语义掩码是必要的，我们在两个常见的语义分割任务上进行了大量实验证明我们的方法在各种分割转换中大大减少了 40％〜60％的 FLOPs，mIoU 的降低在 0.8％以内，并且 Cityscapes 上的 ViT-L/B 的吞吐量和推理速度增加了 2 倍以上。

Aug, 2023

DynamicViT：动态 Token 稀疏化的高效视觉 Transformers

提出了一种动态的、基于输入的 Token 稀疏化框架，通过阈值删除多余的信息元素，并通过自注意力网络的特性，使其仍然具有硬件友好性。在保证精度的同时，相比现有 CNN 和 Transformer 模型，通过分层删减 66% 的输入元素，可以大大减少 FLOPs、提高吞吐量。

Jun, 2021

通过动态路径定制实现图像字幕

本文探索一种新颖的动态网络以应对视觉和语言任务，其中推理结构针对不同输入动态定制。通过引入基本单元并在空间和通道运算领域分组，以构建丰富的路径空间和提升路径选择效率，我们设计了一个空间 - 通道联合路由器来根据输入样本的空间和通道信息进行路径定制，并在 MS-COCO 数据集上进行实验证明了提出的动态变压器网络的有效性，获得了 Karpathy 分割和在线测试服务器上的最新最佳性能。

Jun, 2024

TerDiT: 基于 Transformer 的三元扩散模型

我们提出了 TerDiT，一种针对具有 transformer 的三态扩散模型的量化感知训练（QAT）和有效部署方案，致力于探索大规模 DiT 模型的高效部署策略，展示了从头开始训练极低比特扩散变压器模型的可行性，同时保持与全精度模型相比有竞争力的图像生成能力。

May, 2024

纯视觉 Transformer 中的动态令牌修剪用于语义分割

基于视觉转换器的动态令牌修剪方法（DToP）在不降低精度的情况下，降低了当前基于纯视觉转换器的语义分割方法平均 20％-35％的计算成本。

Aug, 2023

$Δ$-DiT：一种为扩散变换器量身定制的无需训练的加速方法

通过调查 DiT 块与图像生成之间的相关性，发现 DiT 的前述块与生成图像的轮廓有关，而后述块与细节有关。基于此，我们提出了一个全面的无需训练的推断加速框架 Delta-DiT，采用设计的缓存机制来加速早期采样阶段的后述 DiT 块和后期阶段的前述 DiT 块。在 PIXART-alpha 和 DiT-XL 上的大量实验证明，Delta-DiT 在 20 步生成时可以实现 1.6 倍加速，并在大多数情况下性能提高。在 4 步一致模型生成和更具挑战性的 1.12 倍加速的情况下，我们的方法显著优于现有方法。我们的代码将公开提供。

Jun, 2024

DualToken-ViT：具有双重令牌融合的位置感知高效视觉 Transformer

提出了一种轻量级和高效的视觉变换模型 DualToken-ViT，它通过卷积和自注意结构有效地融合了局部信息和全局信息以实现高效的注意力结构，并使用位置感知的全局标记来丰富全局信息，并改进了图像的位置信息，通过在图像分类、物体检测和语义分割任务上进行广泛实验，展示了 DualToken-ViT 的有效性，其在 ImageNet-1K 数据集上取得了 75.4% 和 79.4% 的准确率，而在只有 0.5G 和 1.0G 的 FLOPs 下，我们的 1.0G FLOPs 的模型的性能超过了使用全局标记的 LightViT-T 模型 0.7%。

Sep, 2023

U-DiTs：在 U 形扩散变压器中降采样 Token

将变换器架构引入扩散任务，对潜在空间图像生成进行了研究，发现 U-Net 架构只在 U-Net 归纳偏差中略有优势，提出了 U 型扩散变换器（U-DiT）模型，通过降低计算量并在自注意力中进行令牌下采样，在性能上超过了 DiT-XL/2。

May, 2024

探索用于高效目标跟踪的动态 Transformer

通过使用动态网络路由所启发，本文提出了一种用于高效追踪的动态转换器框架，通过学习自动配置适当的推理路径来实现更好地利用可用计算预算，从而在相同运行速度下实现更高的性能。

Mar, 2024

GTP-ViT：基于图卷积传播的高效视觉 Transformer

基于图的标记传播方法（GTP）通过将不重要的标记信息传播到与之相关性更大的标记上，从而在降低计算复杂度的同时保持了被剔除标记的重要信息，实现了高效的 Vision Transformers（ViTs）。

Nov, 2023