Feb, 2024

FiT: 弹性视觉 Transformer 用于扩散模型

TL;DR为了克服传统图像处理方法中目标域以外的图像分辨率挑战,本文引入一种名为 Flexible Vision Transformer (FiT) 的变压器架构,它专门用于生成具有无限制分辨率和宽高比的图像。与传统的静态分辨率网格方式不同,FiT 将图像构想为动态尺寸令牌序列,从而实现了灵活的训练策略,适应了不同宽高比的图像。经过精心调整的网络结构和训练无关的外推技术的集成增强了 FiT 在分辨率外推生成方面的灵活性。综合实验证明 FiT 在广泛分辨率范围内表现出色,展示了它在训练分辨率分布内外的有效性。