FiT: 弹性视觉 Transformer 用于扩散模型

Feb, 2024

FiT: 弹性视觉 Transformer 用于扩散模型

FiT: Flexible Vision Transformer for Diffusion Model

Zeyu Lu, Zidong Wang, Di Huang, Chengyue Wu, Xihui Liu...

TL;DR为了克服传统图像处理方法中目标域以外的图像分辨率挑战，本文引入一种名为 Flexible Vision Transformer (FiT) 的变压器架构，它专门用于生成具有无限制分辨率和宽高比的图像。与传统的静态分辨率网格方式不同，FiT 将图像构想为动态尺寸令牌序列，从而实现了灵活的训练策略，适应了不同宽高比的图像。经过精心调整的网络结构和训练无关的外推技术的集成增强了 FiT 在分辨率外推生成方面的灵活性。综合实验证明 FiT 在广泛分辨率范围内表现出色，展示了它在训练分辨率分布内外的有效性。

Abstract

nature is infinitely resolution-free. In the context of this reality, existing diffusion models, such as diffusion transformers, often fac

nature diffusion models diffusion transformers flexible vision transformer resolution extrapolation

发现论文，激发创造

ViTAR: 任意分辨率的视觉 Transformer

通过动态分辨率调整和模糊位置编码，ViTAR（任意分辨率的视觉 Transformer）实现了对不同分辨率图像的高效处理和一致的位置感知，提升了 ViT（视觉 Transformer）的分辨率可扩展性和性能。

Mar, 2024

FIT：远距离交错 Transformers

FIT 是一种基于 Transformer 的架构，具有高效的自我关注和自适应计算，它在高分辨率图像理解和生成任务中表现出良好的效果。

May, 2023

FMViT：多频混合视觉 Transformer

通过设计具有高频和低频特征的 FMViT 混合 Vision Transformer 模型，以及引入 gMLP、RLMHSA 和 CFB 机制来提高模型性能和减少计算开销，我们在各种视觉任务中成功提高了潜在的 TensorRT 和 CoreML 平台上的性能，相比现有的 CNNs，ViTs 和 CNNTransformer 混合架构，FMViT 在性能和计算开销方面取得了卓越的成果。

Nov, 2023

DiffiT：用于图像生成的扩散视觉 Transformer

本文研究了视觉 transformer 在基于扩散的生成学习中的有效性，并提出了一种新的模型 Diffusion Vision Transformers（DiffiT），该模型在多个条件和无条件综合任务中取得了最新的基准成绩，生成了高保真度图片。

Dec, 2023

FlexiViT：一模型多尺寸贴片处理

本文介绍一种叫做 FlexiViT 的方法，能够动态改变 ViT 模型输入的 patch size 以适应不同的计算预算，从而提高计算效率和精度。通过实验发现，FlexiViT 训练的模型在分类、图像文本检索、分割等多个任务上表现良好，易于应用于大多数基于 ViT 结构的计算任务。

Dec, 2022

可扩展的 Transformer 扩散模型

本文提出了基于 Transformer 的扩散模型。将常用的 U-Net 骨干网络替换为在潜在块上操作的 Transformer，通过 Gflops 度量前向传递复杂度分析 DiT 的可伸缩性，并证明了高 Gflops DiT-XL/2 模型在 ImageNet 512x512 和 256x256 基准测试中均优于以前的扩散模型，后者在 256x256 基准测试上实现了先进的 FID (2.27)。

Dec, 2022

混合分辨率令牌化的视觉 Transformer

本文介绍了一种新的图像标记方案 —— 混合分辨率标记 —— 以及如何使用 Quadtree 算法和新的显著性评分器构建图像的代表通量，进而实现更好的图像分类。

Apr, 2023

Visformer：基于 Transformer 的视觉友好型模型

通过将 Transformer 模型逐步转化为基于卷积的模型，进行经验证实验表明，命名为 Visformer 的新架构比 Transformer 模型和卷积模型在 ImageNet 分类准确性方面表现更佳，尤其是当模型复杂度较低或者训练集较小时。

Apr, 2021

ResFormer：多尺度训练下的 ViT 模型缩放

ResFormer 框架通过多分辨率训练方法和全局 - 局部位置嵌入策略，在图像分类、目标检测、语义分割和视频动作识别等领域取得了较好的结果。

Dec, 2022

Inf-DiT: 用内存高效的扩散变换方法上采样任意分辨率图像

通过引入单向注意力机制和 DiT 结构，我们提出了一种自适应调整推理过程中的内存负荷和处理全局依赖性的无限超分模型，实验结果表明，在生成超高分辨率图像方面，我们的模型在机器和人类评估方面都达到了最先进的性能。与常用的 UNet 结构相比，在生成 4096*4096 图像时，我们的模型可以节省超过 5 倍的内存。

May, 2024