半监督全景叙事基准化
本研究提出了一种用于实时 PNG 的单阶段网络,名为端到端全景叙事接地网(EPNG),通过将两个创新设计:局部感知关注(LPA)和双向语义对齐损失(SAL),用于处理文本表达式和视觉对象之间复杂的多对多关系,从而直接生成指示物的掩模,以及提高分段结果和语义一致性的泛化能力。
Jan, 2023
该研究提出了一种端到端的 Pixel-Phrase 匹配网络(PPMN),通过密集标注的像素 - 短语对而非稀疏的区域 - 短语对进行训练,以直接匹配每个短语与其对应的像素,并将它们简单组合以输出全景分割,同时也开发了一种 Language-Compatible Pixel Aggregation(LCPA)模块来进一步提高短语特征的区分能力,该方法在 PNG 基准测试中实现了新的最高性能。
Aug, 2022
通过设计 Phrase-Pixel-Object Transformer Decoder(PPO-TD)来丰富与像素和物体上下文相关的短语特征,并提出 Phrase-Object Contrastive Loss(POCL)从短语相关的物体标记中聚合更精确的物体上下文,这使得我们的方法在 Panoptic narrative grounding 基准测试中取得了新的最先进性能。
Nov, 2023
提出了一种统一且有效的框架 NICE,可以共同学习 Panoptic Narrative Detection 和 Segmentation 任务。通过引入基于掩模质心的两个级联模块,即 Coordinate Guided Aggregation (CGA) 和 Barycenter Driven Localization (BDL),分别负责分割和检测,将这两个任务自然地对齐并相互补充,从而提高性能。实验结果表明,NICE 方法在 PND 和 PNS 方面都显著优于现有方法,分别达到 4.1% 和 2.9% 的提升率。
Oct, 2023
本文提出一种半监督学习的语义分割模型,该模型可以将从像素级别注释的强类别中学到的分割知识转移到只有图像级别注释的弱类别中,从而显著扩大了深度分割模型在实际应用中的适用范围。该模型由两个互补且可学习的部分组成:标签转移网络(L-Net)和预测转移网络(P-Net)。通过将这两个部分进行整合,可以在 PASCAL VOC 2012 数据集上实现与完全监督基线相近的 96.5%和 89.4%的性能,而只使用 50%和 0%的像素级别注释类别。
Nov, 2017
本文提出了一种使用边界框标注的弱监督语义分割方法,采用背景感知池化与噪声感知损失函数,可以在 PASCAL VOC 2012 数据集上比现有技术有更好的语义分割效果。
Apr, 2021
通过将神经过程(NPs)应用于半监督语义分割,我们提出了一种新的模型 NP-SemiSeg,并在公共基准数据集 PASCAL VOC 2012 和 Cityscapes 上进行了实验验证其有效性。
Aug, 2023
通过引入点邻域学习、增强训练监督及扩充数据多样性,我们提出了一种弱半监督方法,名为 Point-Neighborhood Learning (PNL) 框架,用于医学图像中的点注释,显著提高了性能并不改变分割网络结构。
May, 2024
使用有限的多注释和丰富的无注释数据,我们提出了一种多注释半监督集成网络(MSE-Nets),用于医学图像分割任务,通过多种方法增强模型,优化可利用的注释数据,减少重复注释的需求,并提高模型在医学图像分割中的性能。
Nov, 2023
本文提出了一种新的弱监督全景分割方法,使用逐点标注替代像全监督方法那样使用像素级标签,通过构建端到端的框架同时从逐点标签生成全景伪掩模进行学习,最小化像素到点间的遍历成本以模拟语义相似性、低级纹理线索及高层流形知识,以实现像素解析。在实验中,本文基于 Pascal VOC 及 MS COCO 数据集证明了此方法的有效性及其领先的性能。
Oct, 2022