Apr, 2024

GvT: 一种利用稀疏性进行训练的基于图的视觉 Transformer 模型,使用自由发挥,从头开始在小数据集上训练

TL;DR使用基于图卷积投影和图池化的图神经网络(GvT),并通过基于双线性池化特征和注意张量的稀疏选择的讲话头技术解决注意头降维问题,以及应用图池化来有效降低标记数量和聚合语义信息,实验结果表明 GvT 在小数据集上超越了卷积神经网络和预训练的视觉 Transformer 模型。