基于端到端网络的实时全景叙事性 grounding
本文提出了一种名为全景叙事基础的新型任务,包括新的实验框架、地面真值和指标,并提出了一个强大的基线方法。文章提出了一种算法,将分布式叙事注释传输到 MS COCO 数据集的普透明分割的特定区域。通过使用分割,文中还以精细的层次接近视觉基础问题,并通过包括全景类别来实现图像的内在语义丰富度。
Sep, 2021
该研究提出了一种端到端的Pixel-Phrase匹配网络(PPMN),通过密集标注的像素-短语对而非稀疏的区域-短语对进行训练,以直接匹配每个短语与其对应的像素,并将它们简单组合以输出全景分割,同时也开发了一种 Language-Compatible Pixel Aggregation(LCPA)模块来进一步提高短语特征的区分能力,该方法在PNG基准测试中实现了新的最高性能。
Aug, 2022
本文提出了一个新的基准数据集SK-VG,其中图像内容和指代表达不足以确定目标对象,迫使模型在长篇场景知识上具备推理能力。我们提出了两种方法来接受三元类型的输入,前者在图像查询交互之前将知识嵌入图像特征,后者利用语言结构来辅助计算图像文本匹配。通过大量实验证明了所提方法的可行性,并展示了他们取得的有希望的结果,但仍有改进的空间,包括性能和可解释性。
Jul, 2023
提出了一种统一且有效的框架NICE,可以共同学习Panoptic Narrative Detection和Segmentation任务。通过引入基于掩模质心的两个级联模块,即Coordinate Guided Aggregation (CGA)和Barycenter Driven Localization (BDL),分别负责分割和检测,将这两个任务自然地对齐并相互补充,从而提高性能。实验结果表明,NICE方法在PND和PNS方面都显著优于现有方法,分别达到4.1%和2.9%的提升率。
Oct, 2023
提出了一种名为DRMN(Deformable Attention Refined Matching Network)的新颖学习框架,通过引入可变形注意力,在特征学习的迭代过程中融入不同尺度像素的重要上下文信息,从而提高文本短语与图像像素之间的匹配结果。DRMN在PNG基准测试中取得了新的最先进结果,在平均召回率上提高了3.5%。
Oct, 2023
本文介绍了一种新颖的半监督全景叙事 grounding 方案,利用少量带标签的图文对和大量无标签对来实现竞争性性能,并通过质量基配损失调整方法提高半监督网络以克服标注有限的挑战。
Oct, 2023
通过设计Phrase-Pixel-Object Transformer Decoder(PPO-TD)来丰富与像素和物体上下文相关的短语特征,并提出Phrase-Object Contrastive Loss(POCL)从短语相关的物体标记中聚合更精确的物体上下文,这使得我们的方法在Panoptic narrative grounding基准测试中取得了新的最先进性能。
Nov, 2023
通过扩展扩散模型的架构,本研究提出了一种使用提问学习的方法,实现了基于句子构建的图像理解,进而在零样例的情况下实现了上下文感知的短语级理解,证明了扩散模型在语境感知的短语级理解方面的能力。
Jul, 2024
本研究解决了全景叙事对接中图像与文本之间的细粒度对齐问题。通过提出一种提取-注入短语适配器(EIPA),该方法动态更新短语提示以更好地与图像特征交互,显著提高了扩散模型在此任务上的表现。此外,设计的多层互聚合(MLMA)模块进一步增强了多层次特征的融合和细分。实验表明,该方法在基准测试中达到了新的最先进性能。
Sep, 2024