快速准确场景分割的语义流
本文提出使用 Feature Fusion with Different Norms (FFDN),利用多重尺度的丰富全局上下文信息和垂直池化模块来减少在垂直方向上全局上下文编码的复杂度。在城市风景测试数据集上,平均交互并集(mIoU)为 73.1,每秒帧数(FPS)为 191,与目前最先进的结果相当。
Oct, 2022
本文中,我们提出了 Semantic Flow,一种从单 ocular videos 中学习动态场景的神经语义表示。与以往的 NeRF 方法不同,它通过包含丰富的三维运动信息的连续流来学习语义。我们考虑从二维视频帧中提取三维流特征时视线方向上的二维到三维模糊问题,将体积密度视为描述流特征对帧语义贡献的不透明度先验。我们首先学习流网络预测动态场景中的流,并提出流特征聚合模块从视频帧中提取流特征。然后,我们提出流注意模块从流特征中提取运动信息,随后是语义网络输出流的语义 logits。我们将 logits 与视线方向上的体积密度相结合,以在视频帧上监督流特征与语义标签的学习。实验结果表明,我们的模型能够学习多个动态场景,并支持一系列新任务,如实例级场景编辑、语义补全、动态场景跟踪和对新场景的语义适应。可在此 https URL 获取代码。
Apr, 2024
本文提出了一种高效的 CNN 方法 ——MSFNet,它利用类边界监督和多特征融合模块来实现实时语义分割,并在 Cityscapes 和 Camvid 数据集上得到了比现有方法更好的结果。
Nov, 2019
本文提出了一种使用多尺度特征融合网络和 BiFPN 来进行实时图像语义分割的方法 ESeg,通过扩展传统的多尺度特征空间来实现,不需要高分辨率和昂贵的空洞卷积。实验证明,ESeg 在多个数据集上的表现比先前的方法更准确,并且实时性能得到提升。
Mar, 2022
提出了一种基于点亲和力传播模块 PointFlow 的航空图像分割方法,该方法相对于最新的密集亲和力上下文建模方法更加高效和精确,通过选择相邻特征之间的点生成稀疏亲和力映射降低了背景产生的噪音,该方法在三个不同的航空分割数据集上表现出比最先进的一般语义分割方法更有效和高效的结果。
Mar, 2021
本文提出一种名为 S^2-FPN 的轻量级模型,用于实时场景语义分割。该模型采用了注意力机制、尺度感知条带注意力以及全局特征上采样等多种方法,从而在准确度和速度之间达成权衡,提高了图像分割的效率。
Jun, 2022
提出了一种简洁而高效的分层特征对齐网络 (HFAN),用于改进无监督视频对象分割 (UVOS) 中运动和外观特征的关联性,通过顺序的特征对齐模块 (FAM) 和特征适应模块 (FAT) 对外观和运动特征进行层次化处理,在 DAVIS-16 数据集上实验表明,在 J&F 平均值方面,HFAN 达到了新的最优性能,相对于最优结果提高了 3.5%。
Jul, 2022
本研究提出了一种基于 CNN 的新型架构,可以进行端到端的训练,以提供无缝的场景分割结果。该网络结构采用了一种新颖的分割头,将由特征金字塔网络生成的多尺度特征与由轻量级 DeepLab 模块传递的上下文信息进行了无缝整合,从而预测一致的语义分割和检测结果。此外,研究人员还提出了一种替代 panoptic 度量的方法,克服了评估非实例类别时的局限性。通过在三个具有挑战性的街景数据集上测试,即 Cityscapes、Indian Driving Dataset 和 Mapillary Vistas,我们的网络架构取得了最先进的结果。
May, 2019
本文提出一种畸变感知的特征校正方法来改善视觉语义分割的性能,旨在将畸变的传播特征纠正回去,首先通过畸变模式预测方法将畸变模式从特征传回图像空间并利用其指导特征校正,实验表明此方法在 Cityscapes 和 CamVid 数据集上显著优于现有最先进的方法。
Jun, 2020
本文提出了一种无监督的光流估计方法,通过引入自适应金字塔采样,提出了一个内容感知池化模块和一个自适应光流上采样模块,能够有效地避免交叉边界插值和交叉区域池化,从而实现了最佳的光流估计性能。
Apr, 2021