半监督全景叙事基准化

Oct, 2023

Semi-Supervised Panoptic Narrative Grounding

Danni Yang, Jiayi Ji, Xiaoshuai Sun, Haowei Wang, Yinan Li...

TL;DR本文介绍了一种新颖的半监督全景叙事 grounding 方案，利用少量带标签的图文对和大量无标签对来实现竞争性性能，并通过质量基配损失调整方法提高半监督网络以克服标注有限的挑战。

Abstract

Despite considerable progress, the advancement of panoptic narrative grounding (PNG) remains hindered by costly annotations. In this paper, we introduce a novel →

发现论文，激发创造

全景叙事基础

本文提出了一种名为全景叙事基础的新型任务，包括新的实验框架、地面真值和指标，并提出了一个强大的基线方法。文章提出了一种算法，将分布式叙事注释传输到 MS COCO 数据集的普透明分割的特定区域。通过使用分割，文中还以精细的层次接近视觉基础问题，并通过包括全景类别来实现图像的内在语义丰富度。

Sep, 2021

PPMN：像素短语匹配网络用于单阶段全景叙事 grounding

该研究提出了一种端到端的Pixel-Phrase匹配网络（PPMN），通过密集标注的像素-短语对而非稀疏的区域-短语对进行训练，以直接匹配每个短语与其对应的像素，并将它们简单组合以输出全景分割，同时也开发了一种 Language-Compatible Pixel Aggregation（LCPA）模块来进一步提高短语特征的区分能力，该方法在PNG基准测试中实现了新的最高性能。

Aug, 2022

基于端到端网络的实时全景叙事性 grounding

本研究提出了一种用于实时PNG的单阶段网络，名为端到端全景叙事接地网（EPNG），通过将两个创新设计：局部感知关注（LPA）和双向语义对齐损失（SAL），用于处理文本表达式和视觉对象之间复杂的多对多关系，从而直接生成指示物的掩模，以及提高分段结果和语义一致性的泛化能力。

Jan, 2023

NICE: 提升全景叙事检测和分割的级联协作学习

提出了一种统一且有效的框架NICE，可以共同学习Panoptic Narrative Detection和Segmentation任务。通过引入基于掩模质心的两个级联模块，即Coordinate Guided Aggregation (CGA)和Barycenter Driven Localization (BDL)，分别负责分割和检测，将这两个任务自然地对齐并相互补充，从而提高性能。实验结果表明，NICE方法在PND和PNS方面都显著优于现有方法，分别达到4.1%和2.9%的提升率。

Oct, 2023

图像叙述中的半监督多模态指代消解

研究采用图像和描述性文本的多模态共指消解，在细粒度的图像-文本对齐、叙述语言的内在歧义和缺乏大规模标注数据集的条件下，提出了一种数据效率的半监督方法，用于解决多模态背景下的共指消解和叙述依托问题，通过跨模态框架结合有标注和无标注数据的损失优化，实验证明该方法在共指消解和叙述依托任务上的性能优于强基线模型。

Oct, 2023

上下文有重要性：具有可变形注意力的端到端全景叙述关联匹配网络

提出了一种名为DRMN（Deformable Attention Refined Matching Network）的新颖学习框架，通过引入可变形注意力，在特征学习的迭代过程中融入不同尺度像素的重要上下文信息，从而提高文本短语与图像像素之间的匹配结果。DRMN在PNG基准测试中取得了新的最先进结果，在平均召回率上提高了3.5%。

Oct, 2023

通过像素和物体背景来丰富短语以用于全景叙事引导

通过设计Phrase-Pixel-Object Transformer Decoder（PPO-TD）来丰富与像素和物体上下文相关的短语特征，并提出Phrase-Object Contrastive Loss（POCL）从短语相关的物体标记中聚合更精确的物体上下文，这使得我们的方法在Panoptic narrative grounding基准测试中取得了新的最先进性能。

Nov, 2023

基于大语言模型的通用实体链接

我们提出了一种新的方法来从长描述中密集地连接视觉实体，利用大型多模态模型提取语义名词，利用无类别分割模型生成实体级分割，采用多模态特征融合模块将每个语义名词与其对应的分割蒙版关联。此方法利用颜色映射对实体分割蒙版进行编码，使得细粒度预测能够保留高分辨率蒙版的特征。该方法使用LMM中的CLIP视觉编码器从低分辨率图像中提取视觉特征，比使用额外编码器处理高分辨率图像的现有方法在计算上更高效。我们的全面实验表明，我们的方法卓越于三个任务，包括全景叙事连接、指称表达分割和全景分割。

Feb, 2024

探索基于短语分时的文本至图像扩散模型

通过扩展扩散模型的架构，本研究提出了一种使用提问学习的方法，实现了基于句子构建的图像理解，进而在零样例的情况下实现了上下文感知的短语级理解，证明了扩散模型在语境感知的短语级理解方面的能力。

Jul, 2024

动态提示冻结文本至图像扩散模型以实现全景叙事对接

本研究解决了全景叙事对接中图像与文本之间的细粒度对齐问题。通过提出一种提取-注入短语适配器(EIPA)，该方法动态更新短语提示以更好地与图像特征交互，显著提高了扩散模型在此任务上的表现。此外，设计的多层互聚合(MLMA)模块进一步增强了多层次特征的融合和细分。实验表明，该方法在基准测试中达到了新的最先进性能。

Sep, 2024