探究视觉 Transformer 在分布偏移下的泛化能力

CVPRJun, 2021

探究视觉 Transformer 在分布偏移下的泛化能力

Delving Deep into the Generalization of Vision Transformers under Distribution Shifts

Chongzhi Zhang, Mingyuan Zhang, Shanghang Zhang, Daisheng Jin, Qiang Zhou...

TL;DR本文系统研究了 Vision Transformers 在分布偏移情况下的泛化问题，发现其在背景和纹理上学习的偏差较弱，而对形状和结构的归纳偏差较强，因此在分布偏移情况下，相对于卷积神经网络，具有更好的泛化性能，且使用相同数量的参数，其在大多数类型的分布偏移下，比相应的 CNN 模型高出 5% 以上的准确度。此外，作者还进一步提出了增强泛化性能的 GE-ViTs，其对超参数的敏感度高于相应的 CNN 模型，因此设计了更平滑的学习策略以优化 GE-ViTs 的性能。

Abstract

vision transformers (ViTs) have achieved impressive performance on various vision tasks, yet their generalization under distribution shifts

vision transformers distribution shifts generalization inductive biases cnns

发现论文，激发创造

自主学习视觉 Transformer 用于领域泛化

本文探讨使用自我蒸馏方法解决视觉 Transformer 在领域泛化问题上的过拟合问题，并在五个具有挑战性的数据集上实现了显著的性能提升，同时表现出了对最新领域泛化方法的优异性。

Jul, 2022

视觉 Transformer 中的多样特征学习以提高泛化性能

通过修剪与不必要特征相关的注意力头和鼓励输入梯度正交性，我们提出一种方法提高深度学习模型对分布变化的适应性并增加特征的多样性和互补性。

Aug, 2023

如何训练您的 ViT 用于异常检测

本研究探讨了 VisionTransformers 在 ImageNet 规模设置中作为强大的超出分布检测器的影响，通过对大量模型的分析，发现预训练和微调方案对 ViTs 性能以及 OOD 检测表现产生了强烈影响，并确定了最佳实践训练方法。

May, 2024

使用双向编码器视觉变换器进行领域泛化

本文旨在探讨如何在面对数据分布与所训练模型不同的情况下，通过使用视觉转换器架构进行域泛化，并取得了显著的验证和测试准确度提高，成功地克服了内部分布和超出分布数据之间的差距。

Jul, 2023

ViTs 随处可见：综合研究展示不同领域中的视觉 Transformer

Transformer 设计是自然语言处理任务的事实标准，并且对计算机视觉领域的研究人员产生了兴趣。与卷积神经网络相比，基于 Transformer 的 Vision Transformers（ViTs）在许多视觉问题中变得更加流行和占主导地位。

Oct, 2023

视觉 Transformer 在领域适应与泛化中的应用：鲁棒性研究

本文研究了视觉 Transformer 在领域适应和领域泛化方案中的应用，包括特征级、实例级、模型级以及混合方法的适应，以及多领域学习、元学习、正则化技术和数据增强策略的领域泛化方法，总结了各种与分布变化相关的策略，并提供了有价值的洞见和综合表格，展示了视觉 Transformer 在处理分布变化方面的多样性和实用性。

Apr, 2024

视觉 Transformers 是强大的学习器

本文旨在研究 Vision Transformer 对常见的图像扰动、分布偏移和自然对抗样本的稳健性，并在六个不同的 ImageNet 数据集上与 SOTA 卷积神经网络进行性能比较，通过一系列六个系统设计的实验，提供了定量和定性的分析来解释 ViT 为什么是更加稳健的学习器。

May, 2021

基于深度神经网络编码模型的腹侧视觉皮层外分化能力基准测试

使用 DNN 编码模型预测视觉皮层神经元反应时，我们对其泛化能力进行了表征。通过收集来自猕猴颞下皮层的大规模神经群体反应数据集 MacaqueITBench，我们研究了分布转移对预测神经活动模型的影响。结果显示，分布转移对于预测神经元响应的模型性能有很大影响，并且预训练对象识别模型提取的图像表示之间的余弦距离是神经预测性的强预测因子。

Jun, 2024

使用小数据集高效训练视觉 Transformer

本文研究使用自监督任务和少量数据进行训练的 Visual Transformer 网络的表现，并发现新的自监督任务可以在空间关系方面鼓励 VT 网络，从而显著提高其小数据集准确性。

Jun, 2021

视觉 Transformer 的最新进展：近期研究的综述和展望

本文介绍了近期表现最佳的 Vision Transformers 方法，对其强弱项、计算成本、训练和测试数据集进行了全面综述，并在流行基准数据集上与各种 ViT 算法以及代表性 CNN 方法的性能进行了充分比较，最后讨论了一些局限性和提出了未来研究方向。

Mar, 2022