Mar, 2024

HIRI-ViT:高分辨率输入下的视觉Transformer尺度扩展

TL;DR一种基于高分辨率输入的新型混合主干网络(HIRI-ViT),通过将典型的卷积神经网络操作分解为两个并行的卷积神经网络分支来构建,一个直接以高分辨率特征为输入,但使用更少的卷积操作,另一个首先进行下采样,然后在低分辨率特征上使用更多的卷积操作,通过对ImageNet、COCO和ADE20K数据集的实验表明了HIRI-ViT的优越性。