Apr, 2024

Nested-TNT: 多尺度特征处理的分层视觉 Transformer

TL;DRTransformer 在计算机视觉领域得到应用,其在自然语言处理方面表现出色,超越了传统卷积神经网络并取得了新的最先进结果。通过将图像分割成多个局部补丁,即 “视觉句子”,ViT 实现了这一目标。然而,图像所包含的信息是庞大而复杂的,仅关注 “视觉句子” 级别的特征是不够的。为了进一步提高性能,TNT 模型提出了进一步划分图像为更小的补丁,即 “视觉词”,得到了更准确的结果。Transformer 的核心是多头注意力机制,传统的注意力机制忽略了不同注意力头之间的相互作用。为了减少冗余并提高利用率,我们引入了嵌套算法,并将 Nested-TNT 应用于图像分类任务。实验证实,所提出的模型在数据集 CIFAR10 上比 ViT 和 TNT 分别提高了 2.25%、1.1%,在数据集 FLOWERS102 上分别提高了 2.78%、0.25% 的分类性能。