TensorMask: 基于张量的密集物体分割基础
我们提出了一个简单、灵活、通用的物体实例分割框架。此方法名为 Mask R-CNN,通过在现有的边界框识别分支上添加一个预测对象掩模的分支,同时高效地检测图像中的物体并生成每个实例的高质量分割掩模。该方法简单易用,可快速训练,并且在 COCO 挑战赛的三个跟踪任务中均取得最佳结果,在实例分割、边界框目标检测和人体关键点检测方面均表现优异,是一个强大的基线模型。
Mar, 2017
本文提出了一种新的旨在优化实例分割方法的卷积神经网络,该网络称为 BlendMask。BlendMask 可以有效地将实例级信息与语义信息相结合,并能够学习每个实例的注意力图,并且具有较快的推理速度,其可以与最先进的一阶段检测框架轻松集成,同时在相同训练计划下优于 Mask R-CNN,并可以在单个 1080Ti GPU 卡上以 25 FPS 评估时实现 34.2% mAP,其简单易用而且强大,可用于一系列实例化任务。
Jan, 2020
Mask4D 是一种基于 Transformer 的方法,用于将 LiDAR 点云进行 4D 全景分割的挑战性任务,直接预测语义实例及其时间关联,无需借助任何手工设计的非学习关联策略,通过引入时空实例查询编码每个实例轨迹的语义和几何特性,并从时空实例查询回归 6DOF 边界框参数以促进紧凑的空间预测,最终在 SemanticKITTI 测试集上取得了 68.4 LSTQ 的新的最优效果,相较于已发表的表现最佳方法提高了至少 4.5%。
Sep, 2023
提出了一种新的、非常简单的实例分割方法,通过引入 “实例类别” 概念,将实例掩码分割转化为可分类问题。实验结果表明,该方法具有较强的性能和简单的框架,可以作为许多实例级别识别任务的基准。
Dec, 2019
该研究提出了一种新的部分监督训练范式和权重转移函数,使得可以在仅有少量掩模注释的情况下,使用来自 Visual Genome 数据集的框注释和 COCO 数据集中 80 个类别的掩模注释,训练出可以检测和分割 3000 个视觉概念的 Mask R-CNN 模型,在 COCO 数据集上进行了实验评估。这是实现广泛理解视觉世界的目标实例分割模型的第一步。
Nov, 2017
通过部分监督学习方法,我们设计了一种训练模型,在只有少数类别的实例标注数据下,通过可微分裁剪和只使用 Groundtruth box 的方法,取得了 COCO 部分监督分割测试集的最佳表现,并发现了强大的 mask-head 泛化效应。
Apr, 2021
本文针对 Mask R-CNN 在场景文本检测与定位中面临的实际问题,提出了一种基于 MLP 解码器和实例感知掩模学习技术的方法,可以显著提高鲁棒性。同时提出了一种自适应标签分配方法,以应对比例和宽高比差异较大的实例问题。该方法在多个基准测试中展现了优异的性能。
Sep, 2021
本文提出了一种名为 MaskRNN 的递归神经网络方法,它在每帧中利用两个深度成像网络输出(二元分割网络和定位网络)进行目标实例的视频对象分割以获取长时序结构和剔除异常值,结果在 DAVIS-2016、DAVIS-2017 和 Segtrack v2 数据集中均达到了最优表现。
Mar, 2018
提出了一种新的 Boundary-preserving Mask R-CNN(BMask R-CNN)的实例分割方法,运用了物体边界信息和特征融合块来改进口罩定位精度,在 COCO 数据集和 Cityscapes 数据集上的实验结果表明 BMask R-CNN 在口罩像素预测和物体边界对齐方面优于 Mask R-CNN。
Jul, 2020
介绍了一种名为 ShapeMask 的解决利用对象的形状中间概念来解决在实例分割中应用于新类别的问题的方法。与现有方法相比,该模型通过学习形状先验和实例嵌入来捕获对象形状和外观信息,并取得了 6.4 到 9.4 的 AP 值提高。
Apr, 2019