Cross-CBAM:用于场景分割的轻量级网络
本文提出一种卷积块自适应模型 (Convolutional Block Attention Module, CBAM),通过自适应特征细粒度调整, CBAM 可以被轻松集成到任何卷积神经网络架构中,改进了分类和检测性能。
Jul, 2018
本研究提出了一种基于 CNN 的新型架构,可以进行端到端的训练,以提供无缝的场景分割结果。该网络结构采用了一种新颖的分割头,将由特征金字塔网络生成的多尺度特征与由轻量级 DeepLab 模块传递的上下文信息进行了无缝整合,从而预测一致的语义分割和检测结果。此外,研究人员还提出了一种替代 panoptic 度量的方法,克服了评估非实例类别时的局限性。通过在三个具有挑战性的街景数据集上测试,即 Cityscapes、Indian Driving Dataset 和 Mapillary Vistas,我们的网络架构取得了最先进的结果。
May, 2019
本文提出了一种用于城市街景的语义分割的高性能深卷积神经网络方法,它实现了精度和速度之间的良好权衡,并展示了在实时速度下使用单个 NVIDIA TITAN X 卡片在具有挑战性的 Cityscapes 和 CamVid 测试数据集上分别实现了 73.6%和 68.0%的 mIoU 精度。
Mar, 2020
本文提出一种名为 S^2-FPN 的轻量级模型,用于实时场景语义分割。该模型采用了注意力机制、尺度感知条带注意力以及全局特征上采样等多种方法,从而在准确度和速度之间达成权衡,提高了图像分割的效率。
Jun, 2022
本文提出了一种名为 'Flow Alignment Module' 的方法,通过学习场景不同层级之间的语义流,并将高层次特征有效和高效地广播到高分辨率特征,使得在轻量级骨干网络上如 ResNet-18 表现卓越,在 Cityscapes 数据集上获得了 80.4% 分割精度,时速达到 26FPS。
Feb, 2020
使用金字塔注意力网络 (PAN) 进行语义分割,通过特征金字塔注意力模块和全局注意力上采样模块提取精确的密集特征,优于现有方法,可达到 PASCAL VOC 2012 和 Cityscapes 数据集的最高精度 mIoU 84.0%。
May, 2018
提出使用 Criss-Cross 网络来获取图像的上下文信息,通过使用新的 Criss-Cross attention 模块,可以收集其交叉路径上所有像素的上下文信息,并且使用循环操作可以使每个像素最终捕获整个图像的依赖关系,并提出类别一致性损失以促进该模块产生更具有鉴别性的特征。CCNet 的优点有:1)GPU 内存友好性。与非本地块相比,所提出的循环 Criss-Cross attention 模块需要 11 倍的 GPU 内存使用。2)高计算效率。循环 Criss-Cross attention 可以将 FLOPs 显著减少约 85%。3)达到了最先进的性能, 在语义分割基准测试包括 Cityscapes,ADE20K,人体解析基准测试 LIP,实例分割基准测试 COCO,视频分割基准 CamVid 上都经过了广泛的实验,我们的 CCNet 特别是在 Cityscapes 测试集上获得了 mIoU 分数为 81.9%的新的最先进结果,ADE20K 验证集和 LIP 验证集分别是 45.76%和 55.47%。
Nov, 2018
本文提出了一种高效的 CNN 方法 ——MSFNet,它利用类边界监督和多特征融合模块来实现实时语义分割,并在 Cityscapes 和 Camvid 数据集上得到了比现有方法更好的结果。
Nov, 2019
本文介绍了一种快速分割卷积神经网络(Fast-SCNN),它是一种高分辨率图像数据(1024x2048px)的半实时语义分割模型,适用于在低内存嵌入式设备上进行高效计算。该网络通过在多个分辨率分支上同时计算低级特征和高级特征,实现了高分辨率的空间细节与更低分辨率下提取的深度特征的结合,并在 Cityscapes 数据集上以每秒 123.5 帧的速度获得了 68.0%的平均交并比准确率。实验证明,预先培训规模的大规模预处理是不必要的。
Feb, 2019