CVPRMar, 2024

ViT-CoMer: 具有卷积多尺度特征交互的视觉 Transformer 用于密集预测

TL;DRViT-CoMer 是一种纯粹、无需预训练并具有特征增强的 ViT 骨干网络,其通过引入卷积多尺度特征相互作用和 CNN-Transformer 双向融合交互模块,在处理密集预测任务时具有较优的性能。