卷积初始化用于数据高效的视觉Transformer模型

Jan, 2024

Convolutional Initialization for Data-Efficient Vision Transformers

Jianqiao Zheng, Xueqian Li, Simon Lucey

TL;DR我们研究了在小数据集上训练视觉转换网络所面临的挑战，发现卷积神经网络可以通过利用其体系结构归纳偏差实现最先进的性能。我们探索了这种归纳偏差是否可以重新解释为视觉转换网络中的初始化偏差，并提出了一种新的初始化策略，可以在小数据集上实现与卷积神经网络相当的性能，同时保留其架构的灵活性。

Abstract

Training vision transformer networks on small datasets poses challenges. In contrast, convolutional neural networks (CNNs) can achieve sta