Mar, 2024

ViT-CoMer: 具有卷积多尺度特征交互的视觉Transformer用于密集预测

TL;DRViT-CoMer是一种纯粹、无需预训练并具有特征增强的ViT骨干网络,其通过引入卷积多尺度特征相互作用和CNN-Transformer双向融合交互模块,在处理密集预测任务时具有较优的性能。