快速注意力实时语义分割

Jul, 2020

Real-time Semantic Segmentation with Fast Attention

Ping Hu, Federico Perazzi, Fabian Caba Heilbron, Oliver Wang, Zhe Lin...

TL;DR该论文提出一种新的 CNN 模型结构和快速空间注意力机制，能够在实时高分辨率图像和视频上进行语义分割，同时实现更好的准确性和速度。在 Cityscapes 数据集中，该模型在单个 Titan X GPU 上实现了 74.4％ mIoU 的 72 FPS 和 75.5％ mIoU 的 58 FPS，比现有方法快约 50％，并保持相同的准确性。

Abstract

In deep cnn based models for semantic segmentation, high accuracy relies on rich spatial context (large receptive fields) and fine spatial details (high resolution), both of which incur high computational costs.

semantic segmentation cnn based models spatial attention real-time high-resolution

发现论文，激发创造

快速视频语义分割的局部内存注意力

本文提出了一种新颖的神经网络模块，可以将现有的单帧语义分割模型转化为视频语义分割流水线，并将过去帧中的语义信息聚合到内存模块中，并通过关注机制来对其进行访问。通过将这些提示与当前帧的编码进行融合，可以改善 Cityscapes 数据集上的分割性能，并只需增加 1.5ms 的推理时间。

Jan, 2021

基于空间稀疏性的实时语义图像分割

本文介绍了一种语义分割的方法，通过使用双列网络结构和特定区域的忽略来降低计算成本，并在保证较高质量的前提下实现每秒处理约 15 张高分辨率 Cityscapes 图像的能力，达到了 72.9％的平均交集联合得分。

Dec, 2017

基于空间融合网络的实时语义分割

本文提出了一种高效的 CNN 方法 ——MSFNet，它利用类边界监督和多特征融合模块来实现实时语义分割，并在 Cityscapes 和 Camvid 数据集上得到了比现有方法更好的结果。

Nov, 2019

城市街景的实时高性能语义图像分割

本文提出了一种用于城市街景的语义分割的高性能深卷积神经网络方法，它实现了精度和速度之间的良好权衡，并展示了在实时速度下使用单个 NVIDIA TITAN X 卡片在具有挑战性的 Cityscapes 和 CamVid 测试数据集上分别实现了 73.6％和 68.0％的 mIoU 精度。

Mar, 2020

学习面部超分辨率的空间注意力

本篇论文介绍了一种基于 SPARNet 和 Face Attention Units（FAU）的空间注意力残差网络（SPARNet），能够在处理低分辨率人脸图像时捕捉到关键面部结构并生成高质量和高分辨率的结果。研究表明，该方法在多种度量标准上的表现优于当前最先进的方法，并能够对合成和真实世界低质量人脸图像进行有效泛化，不需要额外的人工标记数据。

Dec, 2020

ASAP：高准确度实时语义分割

本文提出使用 Feature Fusion with Different Norms (FFDN)，利用多重尺度的丰富全局上下文信息和垂直池化模块来减少在垂直方向上全局上下文编码的复杂度。在城市风景测试数据集上，平均交互并集（mIoU）为 73.1，每秒帧数（FPS）为 191，与目前最先进的结果相当。

Oct, 2022

基于密集检测的实时全景分割

本文提出了一种基于密集检测和全局自注意力机制的新型单次全景分割网络，该网络采用参数自由的掩码构建方法，大大降低了计算复杂度，实现了高效的实时性能，并在 Cityscapes 和 COCO 基准测试上取得了很好的效果。

Dec, 2019

Fast-SCNN: 快速语义分割网络

本文介绍了一种快速分割卷积神经网络（Fast-SCNN），它是一种高分辨率图像数据（1024x2048px）的半实时语义分割模型，适用于在低内存嵌入式设备上进行高效计算。该网络通过在多个分辨率分支上同时计算低级特征和高级特征，实现了高分辨率的空间细节与更低分辨率下提取的深度特征的结合，并在 Cityscapes 数据集上以每秒 123.5 帧的速度获得了 68.0％的平均交并比准确率。实验证明，预先培训规模的大规模预处理是不必要的。

Feb, 2019

层次多尺度注意力用于语义分割

本文介绍了一种基于注意力机制的多尺度预测整合方法，其中的层次化结构能够节省大量内存，提高训练速度和模型精度，并在 Cityscapes 和 Mapillary Vistas 数据集上达到了新的最优结果。

May, 2020

关注尺度：尺度感知的语义图像分割

本论文研究了怎样在卷积神经网络中实现多尺度特征表示，提出了一种注重对每个像素位置进行加权的注意力机制。通过对三个大型数据集的广泛实验，证明了该方法的有效性。

Nov, 2015