使用 Polygon-RNN 对物体实例进行注释
本研究通过引入增强学习、CNN 编码器和图神经网络等多种改进手段,提出了一种名为 Polygon-RNN ++ 的交互式物体注释模型,可显著减少标注时间,提高标注模型表现并具有良好的泛化能力。
Mar, 2018
本文对 CenterPoly 进行改进,提出了一种新的基于区域和顺序的损失函数,针对不同的坐标系评估了多边形掩模的影响,实现了一种实例分割方法,使用回归损失和基于区域的损失的组合可显著提高结果.
May, 2023
本文提出了一种基于深度交互式分割模型的交互式对象分割方法,并利用真实人类注释数据集发布了一个实例分割数据集,同时还提供了一个自动评估模型以更好地保证注释质量。
Mar, 2019
该研究致力于解决在给定用户注释指向感兴趣的物体的情况下的视频对象分割问题。作者提出了一种基于学习嵌入空间的像素级检索方法,并使用全卷积网络作为嵌入模型,使用修改后的三元组损失进行训练。作者提出的方法支持不同类型的用户输入,如在第一帧中的分割遮罩(半监督情况下),或者一个稀疏的点击点集合(交互情况下),并在计算成本上获得了很好的结果。在半监督场景中,该方法达到了与现有技术相比竞争性的结果,但计算成本仅为每帧 275 毫秒。在交互式场景中,该方法能够实时响应用户的每个输入,并达到了与竞争方法相当的质量,但交互程度要少得多。
Apr, 2018
研究提出了一种基于涂鸦的交互式全图像注释框架,将 Mask-RCNN 改进成快速交互式分割框架,并在完整的图像画布上引入像素级别的实例感知损失,实现注释者可将识别错误共享至整张图片中的所有区域并着重核查所有区域中机器产生的最大误差。通过在 COCO 全景数据集上进行实验,证明了该交互式完整图像分割方法实现了 5%的 IoU 增益,在每个区域四次极限点击和四次更正涂鸦的情况下达到了 90%的 IoU。
Dec, 2018
本文提出了一种新的针对仅有边界框注释的多边形实例分割的端到端训练技术,称为 BoxSnake,其方法由基于点的一元损失和基于距离感知的二元损失组成,并证明了该技术在 Cityscapes 数据集上相对于基于掩码的弱监督方法具有显著优势。
Mar, 2023
本文提出了一种端到端的学习框架,其中使用深度卷积网络实现了将前景 / 背景标签分配给所有像素的结构化预测,在无需看到训练期间未曾见过的物体类别的情况下生成了像素级的前景对象分割,并在 ImageNet 和 MIT ObjectDiscovery 数据集上显著改善了前景分割的最新技术成果。我们最后展示了该方法如何使图像检索和图像重排具备更好的应用前景图。
Jan, 2017
该研究提出了一种新的 Deformable Polar Polygon Object Detection 方法,使用带有灵活顶点的稀疏多边形表示来实现精确形状对齐和低计算成本,通过稠密重新采样训练和预测多边形,实现高精度的物体形状学习,并成功应用于自动驾驶中的各种物体检测任务。
Apr, 2023
该研究提出了一种新的部分监督训练范式和权重转移函数,使得可以在仅有少量掩模注释的情况下,使用来自 Visual Genome 数据集的框注释和 COCO 数据集中 80 个类别的掩模注释,训练出可以检测和分割 3000 个视觉概念的 Mask R-CNN 模型,在 COCO 数据集上进行了实验评估。这是实现广泛理解视觉世界的目标实例分割模型的第一步。
Nov, 2017