ContextNet:探索上下文及细节用于实时语义分割
本文报道了一种新的 CNN-RNN-transducer 结构 ContextNet,它包括一个全卷积编码器,通过添加 squeeze-and-excitation 模块将全局上下文信息嵌入到卷积层中,以及一个简单的缩放方法,实现了计算和准确度之间的良好折衷,这种模型在多个基准测试集上显著优于其他模型。
May, 2020
本篇论文提出一种名为 ENet 的新型深度神经网络架构,其最大特点是快速、参数少,适用于对实时性要求较高的像素级语义分割任务,且在 CamVid、Cityscapes 和 SUN 等数据集上测试表明效果相对优于同类型已有网络。
Jun, 2016
本文提出一种轻量、高效的语义分割网路 —— 受上下文引导的网路(CGNet),其基于 CG 块学习局部特征和周围上下文的联合特征,并通过全局上下文进一步改善。CGNet 在所有网络阶段捕获上下文信息,特别地为了提高分割准确度而设计,并精心设计以减少参数数量和内存占用。实验表明,在等效参数数量下,所提出的 CGNet 在 Cityscapes 和 CamVid 数据集上显著优于现有的分割网络。
Nov, 2018
本文介绍了一种快速分割卷积神经网络(Fast-SCNN),它是一种高分辨率图像数据(1024x2048px)的半实时语义分割模型,适用于在低内存嵌入式设备上进行高效计算。该网络通过在多个分辨率分支上同时计算低级特征和高级特征,实现了高分辨率的空间细节与更低分辨率下提取的深度特征的结合,并在 Cityscapes 数据集上以每秒 123.5 帧的速度获得了 68.0%的平均交并比准确率。实验证明,预先培训规模的大规模预处理是不必要的。
Feb, 2019
本文提出了一种用于城市街景的语义分割的高性能深卷积神经网络方法,它实现了精度和速度之间的良好权衡,并展示了在实时速度下使用单个 NVIDIA TITAN X 卡片在具有挑战性的 Cityscapes 和 CamVid 测试数据集上分别实现了 73.6%和 68.0%的 mIoU 精度。
Mar, 2020
本研究设计了一种双并行、使用不同扩张率的卷积层的 ResNeXt,以提高区域感知率和保留局部细节,进而实现语义分割,并在实时 Cityscapes 和 CamVid 数据集上取得迄今最优成果。
Nov, 2021
本文提出了一种基于图像级联网络 (ICNet) 的实时语义分割方法,通过多分辨率分支和级联特征融合单元,以及恰当的标签引导来降低像素级标签推断的计算量,从而实现对挑战性数据集(如 Cityscapes,CamVid 和 COCO-Stuff)的高质量实时分割。
Apr, 2017
该论文提出一种新的 CNN 模型结构和快速空间注意力机制,能够在实时高分辨率图像和视频上进行语义分割,同时实现更好的准确性和速度。在 Cityscapes 数据集中,该模型在单个 Titan X GPU 上实现了 74.4% mIoU 的 72 FPS 和 75.5% mIoU 的 58 FPS,比现有方法快约 50%,并保持相同的准确性。
Jul, 2020