自主学习视觉 Transformer 用于领域泛化
本文系统研究了 Vision Transformers 在分布偏移情况下的泛化问题,发现其在背景和纹理上学习的偏差较弱,而对形状和结构的归纳偏差较强,因此在分布偏移情况下,相对于卷积神经网络,具有更好的泛化性能,且使用相同数量的参数,其在大多数类型的分布偏移下,比相应的 CNN 模型高出 5% 以上的准确度。此外,作者还进一步提出了增强泛化性能的 GE-ViTs,其对超参数的敏感度高于相应的 CNN 模型,因此设计了更平滑的学习策略以优化 GE-ViTs 的性能。
Jun, 2021
本文旨在探讨如何在面对数据分布与所训练模型不同的情况下,通过使用视觉转换器架构进行域泛化,并取得了显著的验证和测试准确度提高,成功地克服了内部分布和超出分布数据之间的差距。
Jul, 2023
本文研究在生成对抗网络中引入 Vision Transformers (ViTs) 架构,并通过引入创新的正则化技术(ViTGAN)解决现有正则化方法与自注意力交互不良的问题,实验表明 ViTGAN 在 CIFAR-10,CelebA 和 LSUN 卧室数据集上表现不亚于基于卷积神经网络的 StyleGAN2 的最新成果。
Jul, 2021
我们提出了一种 CNN 到 ViT 知识蒸馏框架,包括视觉语言特征蒸馏模块 (VLFD) 和像素级解耦蒸馏模块 (PDD),实验证明我们的方法在三个语义分割基准数据集上的 mIoU 增量是最先进知识蒸馏方法的 200% 以上。
Oct, 2023
本研究通过提出两种攻击策略,Self-Ensemble 和 Token Refinement,充分利用了 Vision Transformers 的自注意力和组合性质来增强对抗攻击的传递性能。
Jun, 2021
本文研究了视觉 Transformer 在领域适应和领域泛化方案中的应用,包括特征级、实例级、模型级以及混合方法的适应,以及多领域学习、元学习、正则化技术和数据增强策略的领域泛化方法,总结了各种与分布变化相关的策略,并提供了有价值的洞见和综合表格,展示了视觉 Transformer 在处理分布变化方面的多样性和实用性。
Apr, 2024
该研究论文介绍了一种通过将知识从轻量级视觉模型转移到视觉 - 语言模型,并引入三个方面的扰动提炼(SCI-PD)来提高鲁棒性的方法,并通过新的混合领域泛化基准和度量进行全面评估,结果表明该方法在多个数据集上优于现有算法,尤其在数据稀缺情况下提高了鲁棒性。
Apr, 2024
该研究以无监督域自适应为主题,探索了如何利用关键元素来强化 Vision Transformers 在无源目标适应中的性能,通过引入域表示图像(DRIs)作为关键组件,提高了 Transformer 在领域泛化中的效率。
Nov, 2023
我们提出了一种使用视觉变换器 (ViT) 对转换图像进行模型微调的新方法,该转换图像域自适应方法不会导致模型准确度下降,基于 ViT 的嵌入结构进行实施,实验证实了该方法在使用 CIFAR-10 和 CIFAR-100 数据集的加密图像时仍能防止准确度下降。
Sep, 2023
利用 DeiT-LT 方案能够在长尾数据集上从头开始训练 ViT,并使用蒸馏 DIST 令牌通过在 ViT 架构中使用不同的令牌来学习对应于多数和少数类的特征。
Apr, 2024