半监督全景叙事基准化
本研究提出了一种用于实时 PNG 的单阶段网络,名为端到端全景叙事接地网(EPNG),通过将两个创新设计:局部感知关注(LPA)和双向语义对齐损失(SAL),用于处理文本表达式和视觉对象之间复杂的多对多关系,从而直接生成指示物的掩模,以及提高分段结果和语义一致性的泛化能力。
Jan, 2023
该研究提出了一种端到端的 Pixel-Phrase 匹配网络(PPMN),通过密集标注的像素 - 短语对而非稀疏的区域 - 短语对进行训练,以直接匹配每个短语与其对应的像素,并将它们简单组合以输出全景分割,同时也开发了一种 Language-Compatible Pixel Aggregation(LCPA)模块来进一步提高短语特征的区分能力,该方法在 PNG 基准测试中实现了新的最高性能。
Aug, 2022
通过设计 Phrase-Pixel-Object Transformer Decoder(PPO-TD)来丰富与像素和物体上下文相关的短语特征,并提出 Phrase-Object Contrastive Loss(POCL)从短语相关的物体标记中聚合更精确的物体上下文,这使得我们的方法在 Panoptic narrative grounding 基准测试中取得了新的最先进性能。
Nov, 2023
提出了一种统一且有效的框架 NICE,可以共同学习 Panoptic Narrative Detection 和 Segmentation 任务。通过引入基于掩模质心的两个级联模块,即 Coordinate Guided Aggregation (CGA) 和 Barycenter Driven Localization (BDL),分别负责分割和检测,将这两个任务自然地对齐并相互补充,从而提高性能。实验结果表明,NICE 方法在 PND 和 PNS 方面都显著优于现有方法,分别达到 4.1% 和 2.9% 的提升率。
Oct, 2023
本文提出一种半监督学习的语义分割模型,该模型可以将从像素级别注释的强类别中学到的分割知识转移到只有图像级别注释的弱类别中,从而显著扩大了深度分割模型在实际应用中的适用范围。该模型由两个互补且可学习的部分组成:标签转移网络(L-Net)和预测转移网络(P-Net)。通过将这两个部分进行整合,可以在 PASCAL VOC 2012 数据集上实现与完全监督基线相近的 96.5%和 89.4%的性能,而只使用 50%和 0%的像素级别注释类别。
Nov, 2017
本文提出了一种使用边界框标注的弱监督语义分割方法,采用背景感知池化与噪声感知损失函数,可以在 PASCAL VOC 2012 数据集上比现有技术有更好的语义分割效果。
Apr, 2021
该研究提出了一种基于半监督学习的语义分割框架,采用了强数据增强和分布特定批处理归一化技术,同时设计自校正损失提高噪声抗干扰能力,在 Cityscapes 和 Pascal VOC 数据集上实现了领先水平的结果。
Apr, 2021
通过将神经过程(NPs)应用于半监督语义分割,我们提出了一种新的模型 NP-SemiSeg,并在公共基准数据集 PASCAL VOC 2012 和 Cityscapes 上进行了实验验证其有效性。
Aug, 2023
我们提出了一种双层 Siamese 结构网络(DSSN)进行像素级对比学习,通过在低级图像空间和高级特征空间中利用强增强视图对齐正样本对,最大化利用可用的无标签数据,并引入了一种新颖的面向类别感知的伪标签选择策略以改善弱到强监督的性能,并在 PASCAL VOC 2012 和 Cityscapes 两个数据集上取得了显著优于其他 SSS 算法的最新成果。
Jul, 2023
使用有限的多注释和丰富的无注释数据,我们提出了一种多注释半监督集成网络(MSE-Nets),用于医学图像分割任务,通过多种方法增强模型,优化可利用的注释数据,减少重复注释的需求,并提高模型在医学图像分割中的性能。
Nov, 2023