Mar, 2024

视网膜视觉变换器 (RetinaViT): 将缩放图块引入视觉变换器

TL;DR视网膜视觉转换器(RetinaViT)是从人类视觉系统中汲取灵感,将缩小版本的输入图像的补丁添加到第一个 Transformer 编码器层的输入中。实验结果表明,当在 ImageNet-1K 数据集上进行训练时,RetinaViT 相比原始的 ViT 模型获得了 3.3% 的性能提升,这可能归因于输入中低空间频率成分的包含,从而提高了捕捉结构特征的能力并将重要特征传递给更深的层次,为进一步研究垂直通路和注意模式打开了新的研究方向。