RT-K-Net:重新审视 K-Net 实现实时全景分割
本文提出了一种基于密集检测和全局自注意力机制的新型单次全景分割网络,该网络采用参数自由的掩码构建方法,大大降低了计算复杂度,实现了高效的实时性能,并在 Cityscapes 和 COCO 基准测试上取得了很好的效果。
Dec, 2019
本研究提出了一种名为 Fast Panoptic Segmentation Network(FPSNet)的端到端网络,将全景任务转化为自定义的密集像素分类任务以实现像素级分类和实例识别,在 Cityscapes 和 Pascal VOC 数据集上取得了更好或类似的全景分割性能,比现有的全景分割方法更快。
Oct, 2019
本文提出了一种用于全景分割的深度神经网络,将语义分割与实例分割任务联合起来,从而在单次计算中为输入图像的每个像素提供类标签和唯一对象标识符,并且通过增强信息共享和合并启发式方法,单个网络的性能提高,如在 Cityscapes 上可获得 45.9 的 PQ 分数。
Feb, 2019
本文提出了一种基于 CNN 网络的轻量级、高吞吐量的 RoadNet-RT 架构,通过深入优化硬件设计和使用分离深度卷积和非均匀核大小卷积等技术,显著提高了道路分割的实时处理速度。相较于现有最先进的网络,在仅仅 6.2% 的精度损失下,RoadNet-RT 的速度提升了 20 倍。该 CNN 架构在 FPGA ZCU102 MPSoC 平台实现,计算能力达到 83.05 GOPS,每秒处理 327.9 帧大小为 1216x176 的图像。
Jun, 2020
本文提出了一种快速高效的基于 LiDAR 的 Panoptic-PHNet 框架,其引入簇伪热图作为新的范例,提出了 knn-transformer 模块来精确回归前景点之间的相互作用,并将细粒度体素特征与不同感受野的 2D 俯瞰视图(BEV)特征融合,通过在 SemanticKITTI 数据集和 nuScenes 数据集上的大量实验证明 Panoptic-PHNet 超过了最先进方法,在真实时间内实现了极高的性能。
May, 2022
本文介绍了一种名为 Video K-Net 的全新视频语义分割框架,通过与基于 kernel 的出现模型相结合来跟踪视频中的物体实例,并在多个数据集上达到了最佳表现,此外,该框架也能进一步扩展为视频示例分割和视频语义分割。
Apr, 2022
提出了一种用于全景分割的单一网络方法,该方法将联合训练的语义分割和实例分割网络的预测结果结合起来使用启发式方法,通过对 ResNet-50 特征提取器的共享来加快训练速度并提高内存效率,并使用 Mask R-CNN 类型的架构进行实例分割和增加 Pyramid Pooling 模块进行语义分割。在 COCO 和 Mapillary 联合识别挑战赛 2018 中,我们的方法在 Mapillary Vistas 验证集上获得了 17.6 的 PQ 分数,在 COCO 测试开发集上获得了 27.2 的 PQ 分数。
Sep, 2018
我们提出了一种端到端的网络,用于连接全景分割的训练和推理管道,通过使用密集实例亲和力来捕获像素对属于相同实例的概率,并与 ResNet-50 骨干网络配合使用,实现了对 Cityscapes 和 COCO 数据集的新记录。
Jan, 2020
Panoptic-DeepLab 是一个用于全景分割的模型,具有简单、强大和快速的特点。通过采用语义和实例分割的双重 ASPP 和双重解码器结构,同时使用语义分割模型的典型设计和类别不可知的实例中心回归,Panoptic-DeepLab 超过了所有三个 Cityscapes 基准测试,取得了新的最佳表现,并在 Mapillary Vistas 测试集上提供了未来领先的 42.7% PQ 精度.
Nov, 2019