Nov, 2021

多尺度高分辨率视觉 Transformer 用于语义分割

TL;DRHRViT 通过将高分辨率多支路结构与 Vision Transformers 相集成,探索异构分支设计,减少线性层中的冗余并增强注意力块的表现力,从而在 ADE20K 和 Cityscapes 数据集达到 50.20%和 83.16%的 mIoU 优化性能和效率,比现有的 MiT 和 CSWin 骨干框架平均提高 1.78 个 mIoU,参数节省 28%,FLOPs 减少 21%。