CVPRMar, 2024
ViT-CoMer: 具有卷积多尺度特征交互的视觉 Transformer 用于密集预测
ViT-CoMer: Vision Transformer with Convolutional Multi-scale Feature Interaction for Dense Predictions
Chunlong Xia, Xinliang Wang, Feng Lv, Xin Hao, Yifeng Shi
TL;DRViT-CoMer 是一种纯粹、无需预训练并具有特征增强的 ViT 骨干网络,其通过引入卷积多尺度特征相互作用和 CNN-Transformer 双向融合交互模块,在处理密集预测任务时具有较优的性能。