基于门控全连接网络的语义分割方法 GFF
本文针对语义场景完成(SSC)任务中的数据融合问题进行了研究,我们提出了一种 3D 门控递归融合网络(GRFNet),其可以自适应地选择和融合来自深度和 RGB 图像的相关信息,并借助门控和记忆模块。基于单阶段融合,我们进一步提出了一种多阶段融合策略,并在两个基准数据集上进行了广泛的实验,证明了所提出的 GRFNet 在 SSC 中的数据融合方面具有卓越的性能和有效性。
Feb, 2020
本文提出使用 Feature Fusion with Different Norms (FFDN),利用多重尺度的丰富全局上下文信息和垂直池化模块来减少在垂直方向上全局上下文编码的复杂度。在城市风景测试数据集上,平均交互并集(mIoU)为 73.1,每秒帧数(FPS)为 191,与目前最先进的结果相当。
Oct, 2022
本文提出了一种名为 ExFuse 的新型框架,将语义信息引入低级特征和高分辨率细节引入高级特征之中,从而弥合了低级和高级特征之间的差距,提高了语义分割质量。在 PASCAL VOC 2012 数据集上进行评估,整体准确性提高了 4.0%,平均 IoU 达到了 87.9%,优于之前的最先进结果。
Apr, 2018
本文提出了一种基于卷积神经网络的 Fully Convolutional Networks(FCN)方法,可以用于图像的深度语义分割。通过该方法,我们成功地提高了 PASCAL VOC、NYUDv2、SIFT Flow 和 PASCAL-Context 等公开数据集上的 segmentation 模型的性能,并且推断速度远快于之前的相关工作。
May, 2016
该研究证明,卷积网络可以通过端到端的训练,从像素到像素地训练,超越先前的语义分割最先进方法,通过自适应大小输入和高效学习来生成相应大小的输出。该研究还详细介绍了全卷积网络的应用于空间密集预测任务,并将 AlexNet、VGG 网和 GoogLeNet 等现代分类网络改进成全卷积网络,并将它们学习到的表示通过微调应用于语义分割任务。最后,该研究提出了一种新的网络架构,将深层次粗糙层和浅层外观信息相结合以生成准确和详细的分割结果,在 PASCAL VOC、NYUDv2 和 SIFT Flow 数据集上实现了最先进的语义分割(2012 年的 mean IU 相较前一方法提高 20%),对典型图像的推理时间仅需三分之一秒。
Nov, 2014
本文提出了一种使用多尺度特征融合网络和 BiFPN 来进行实时图像语义分割的方法 ESeg,通过扩展传统的多尺度特征空间来实现,不需要高分辨率和昂贵的空洞卷积。实验证明,ESeg 在多个数据集上的表现比先前的方法更准确,并且实时性能得到提升。
Mar, 2022
我们提出了 Fine-Grained Lidar-Camera Fusion (FGFusion) 方法,通过设计双通路层次结构提取图像的高级语义和低级详细特征,引入辅助网络指导点云特征学习细粒度的空间信息,最后采用多尺度融合 (MSF) 方法将图像和点云的特征融合,通过在 KITTI 和 Waymo 两个常用的自动驾驶基准上进行的大量实验验证了我们方法的有效性。
Sep, 2023
基于 BiseNet 的多尺度协方差特征融合网络 (MCFNet) 提出了一种新的架构,引入了新的特征细化模块和特征融合模块,并提出了名为 L-Gate 的门控单元来过滤无效信息和融合多尺度特征,实验结果显示我们的方法在 Cityscapes 和 CamVid 数据集上取得了竞争性的成功,其中在 Cityscapes 数据集上获得了 75.5% 的平均交并比 (mIOU) 和 151.3FPS 的速度。
Dec, 2023
本论文研究了怎样在卷积神经网络中实现多尺度特征表示,提出了一种注重对每个像素位置进行加权的注意力机制。通过对三个大型数据集的广泛实验,证明了该方法的有效性。
Nov, 2015