在 ViT 特征空间中解耦结构和外观

Nov, 2023

在 ViT 特征空间中解耦结构和外观

Disentangling Structure and Appearance in ViT Feature Space

Narek Tumanyan, Omer Bar-Tal, Shir Amir, Shai Bagon, Tali Dekel

TL;DR我们提出了一种语义外观传输的方法，通过利用预先训练的和固定的视觉 Transformer（ViT）模型，提取深度 ViT 特征中结构和外观的新型解耦表示，然后通过 ViT 特征空间中的目标函数将这些表示相互编织在一起，提出了两种语义外观传输的框架 ——Splice 和 SpliceNet。

Abstract

We present a method for semantically transferring the visual appearance of one natural image to another. Specifically, our goal is to generate an image in which objects in a source structure image are "painted" with the visual appearance of their semantically related objects in a target appearance image. To integrate semantic information into our framework,

semantic appearance transfer vision transformer disentangled representations splice splicenet

发现论文，激发创造

利用 ViT 特征进行语义外观转换

本文介绍了一种名为 Splice 的方法，通过集成 ViT 模型的语义信息，将一个自然图像中的物体的视觉外观转移到另一个图像中，该方法不需要使用对抗训练，也不需要任何额外的输入信息。

Jan, 2022

生成模型中外观和视角的明确分离

通过一个双重潜在空间信息的生成模型，我们利用空间变换器和变分自动编码器构成了一种具有归纳偏差的 Variationally Inferred Transformational Autoencoder (VITAE) 方法用于实现解缠表示的学习，实验结果表明，我们的模型在 MNIST 图像上有效区分了数字类型和视觉风格，对于 CelebA 数据集，能够将人脸外形和姿态以及面部特征与面部形状分开。

Jun, 2019

利用深层 ViT 特征作为密集的视觉描述符

本文研究使用预训练的 Vision Transformer (ViT) 提取的深度特征作为密集的视觉描述符，提出了基于无监督 DINO-ViT 模型提取特征的简单方法，可用于各种领域的相关应用，包括共分割、语义对应等。经过大量定量和定性分析得出了符合竞争性的结果，并且较之前的无监督方法有了很大的提高。

Dec, 2021

提升视觉 Transformer 的对抗传递性

本研究通过提出两种攻击策略，Self-Ensemble 和 Token Refinement，充分利用了 Vision Transformers 的自注意力和组合性质来增强对抗攻击的传递性能。

Jun, 2021

去噪视觉变换器

我们提出了一种噪声模型和去噪方法来解决 Vision Transformers 中存在的网格伪影问题，该方法能有效改善模型在语义和几何任务中的性能。

Jan, 2024

跨图像注意力的零样本外观转换

利用文本到图像生成模型中的语义知识，在具有相似语义但形状可能差异大的物体之间进行视觉外观转换，通过建立跨图像的注意力机制和利用噪声编码或模型内部表示来提高输出图像质量，实现了零训练的目标。

Nov, 2023

使用增强视觉 Transformer 进行图像重建

本文提出了一个基于 Vision Transformer (ViT) 的图像重构框架，利用 4 种优化技术和生成对抗网络（GANs）启发的对抗性损失函数，用于图像去噪和修复，实验表明该框架在结构相似性（SSIM）方面比 U-Net 模型高出超过 3.5％，对于这两个任务，提议的增强算法进一步展示了超过基准的 extasciitilde5％SSIM 的改进。

Jul, 2023

视觉依存 Transformer：依存树由反向注意力得出

本文提出了一种称为 Visual Dependency Transformers（DependencyViT）的神经网络结构，其中包含了一种新的神经操作器叫做 reversed attention，用于在不需要标签的情况下建立图像之间的依赖关系。DependencyViT 在 8 个数据集和 5 个任务上进行了测试，包括图像识别、无监督部分和显著性分割以及检测。

Apr, 2023

自然语言语义下的视觉 Transformer

通过引入基于分割模型的新型分词器策略，语义视觉转换器（sViT）在捕获显著特征和全局依赖关系的同时，提高了解释性和鲁棒性，相较于传统视觉转换器模型（ViT）在训练数据需求、分布泛化和解释性方面表现得更优。

Feb, 2024

SegViT: 纯视觉 Transformer 的语义分割

本文讲述了使用 Vision Transformers 来进行语义分割的能力，提出了 SegVit 模型，并介绍了 Attention-to-Mask（ATM）模块和基于查询的下采样（QD）和上采样（QU）技术，用于构建 Shrunk 结构来减小计算量。实验证明，使用 ATM 模块的 SegVit 模型在 ADE20K 数据集上优于使用常规 ViT 骨干网络的 SegVit 模型，并在 COCO-Stuff-10K 和 PASCAL-Context 数据集上达到了新的排名最佳性能。

Oct, 2022