自主学习视觉 Transformer 用于领域泛化

Jul, 2022

自主学习视觉 Transformer 用于领域泛化

Self-Distilled Vision Transformer for Domain Generalization

Maryam Sultana, Muzammal Naseer, Muhammad Haris Khan, Salman Khan, Fahad Shahbaz Khan

TL;DR本文探讨使用自我蒸馏方法解决视觉 Transformer 在领域泛化问题上的过拟合问题，并在五个具有挑战性的数据集上实现了显著的性能提升，同时表现出了对最新领域泛化方法的优异性。

Abstract

In the recent past, several domain generalization (DG) methods have been proposed, showing encouraging performance, however, almost all of them build on convolutional neural networks (CNNs). There is little to no progress on studying the DG performance of →

domain generalization vision transformers self-distillation overfitting supervisory signals

发现论文，激发创造

探究视觉 Transformer 在分布偏移下的泛化能力

本文系统研究了 Vision Transformers 在分布偏移情况下的泛化问题，发现其在背景和纹理上学习的偏差较弱，而对形状和结构的归纳偏差较强，因此在分布偏移情况下，相对于卷积神经网络，具有更好的泛化性能，且使用相同数量的参数，其在大多数类型的分布偏移下，比相应的 CNN 模型高出 5% 以上的准确度。此外，作者还进一步提出了增强泛化性能的 GE-ViTs，其对超参数的敏感度高于相应的 CNN 模型，因此设计了更平滑的学习策略以优化 GE-ViTs 的性能。

Jun, 2021

使用双向编码器视觉变换器进行领域泛化

本文旨在探讨如何在面对数据分布与所训练模型不同的情况下，通过使用视觉转换器架构进行域泛化，并取得了显著的验证和测试准确度提高，成功地克服了内部分布和超出分布数据之间的差距。

Jul, 2023

使用视觉 Transformer 训练 GANs 的 ViTGAN

本文研究在生成对抗网络中引入 Vision Transformers (ViTs) 架构，并通过引入创新的正则化技术（ViTGAN）解决现有正则化方法与自注意力交互不良的问题，实验表明 ViTGAN 在 CIFAR-10，CelebA 和 LSUN 卧室数据集上表现不亚于基于卷积神经网络的 StyleGAN2 的最新成果。

Jul, 2021

从 CNN 提炼高效的视觉 Transformer 用于语义分割

我们提出了一种 CNN 到 ViT 知识蒸馏框架，包括视觉语言特征蒸馏模块 (VLFD) 和像素级解耦蒸馏模块 (PDD)，实验证明我们的方法在三个语义分割基准数据集上的 mIoU 增量是最先进知识蒸馏方法的 200% 以上。

Oct, 2023

提升视觉 Transformer 的对抗传递性

本研究通过提出两种攻击策略，Self-Ensemble 和 Token Refinement，充分利用了 Vision Transformers 的自注意力和组合性质来增强对抗攻击的传递性能。

Jun, 2021

视觉 Transformer 在领域适应与泛化中的应用：鲁棒性研究

本文研究了视觉 Transformer 在领域适应和领域泛化方案中的应用，包括特征级、实例级、模型级以及混合方法的适应，以及多领域学习、元学习、正则化技术和数据增强策略的领域泛化方法，总结了各种与分布变化相关的策略，并提供了有价值的洞见和综合表格，展示了视觉 Transformer 在处理分布变化方面的多样性和实用性。

Apr, 2024

PracticalDG: 视觉 - 语言模型的扰动提取与混合域泛化

该研究论文介绍了一种通过将知识从轻量级视觉模型转移到视觉 - 语言模型，并引入三个方面的扰动提炼（SCI-PD）来提高鲁棒性的方法，并通过新的混合领域泛化基准和度量进行全面评估，结果表明该方法在多个数据集上优于现有算法，尤其在数据稀缺情况下提高了鲁棒性。

Apr, 2024

利用视觉变换器改善无源目标适应性，以削弱域表示图像

该研究以无监督域自适应为主题，探索了如何利用关键元素来强化 Vision Transformers 在无源目标适应中的性能，通过引入域表示图像（DRIs）作为关键组件，提高了 Transformer 在领域泛化中的效率。

Nov, 2023

加密图像下高效微调视觉转换模型的领域适应

我们提出了一种使用视觉变换器 (ViT) 对转换图像进行模型微调的新方法，该转换图像域自适应方法不会导致模型准确度下降，基于 ViT 的嵌入结构进行实施，实验证实了该方法在使用 CIFAR-10 和 CIFAR-100 数据集的加密图像时仍能防止准确度下降。

Sep, 2023

DeiT-LT 蒸馏对长尾数据集的视觉 Transformer 训练再次起效

利用 DeiT-LT 方案能够在长尾数据集上从头开始训练 ViT，并使用蒸馏 DIST 令牌通过在 ViT 架构中使用不同的令牌来学习对应于多数和少数类的特征。

Apr, 2024