PPMN：像素短语匹配网络用于单阶段全景叙事 grounding

Aug, 2022

PPMN：像素短语匹配网络用于单阶段全景叙事 grounding

PPMN: Pixel-Phrase Matching Network for One-Stage Panoptic Narrative Grounding

Zihan Ding, Zi-han Ding, Tianrui Hui, Junshi Huang, Xiaoming Wei...

TL;DR该研究提出了一种端到端的Pixel-Phrase匹配网络（PPMN），通过密集标注的像素-短语对而非稀疏的区域-短语对进行训练，以直接匹配每个短语与其对应的像素，并将它们简单组合以输出全景分割，同时也开发了一种 Language-Compatible Pixel Aggregation（LCPA）模块来进一步提高短语特征的区分能力，该方法在PNG基准测试中实现了新的最高性能。

Abstract

panoptic narrative grounding (PNG) is an emerging task whose goal is to segment visual objects of things and stuff categories described by dense narrative captions of a still image. The previous two-stage approach first extracts →

发现论文，激发创造

连接视觉和语言的局部叙述

我们提出了一种新的多模态图像标注方法，称为定位叙述，将视觉和语言进行连接。通过请求标注者在将鼠标指针悬停在要描述的区域的同时用语音来描述图像，我们实现了对每个单词进行定位。该方法经过全面的分析和外部数据验证，具有高度准确性和生产效率，并且在受控图像字幕应用程序中具有实用性。

Dec, 2019

全景叙事基础

本文提出了一种名为全景叙事基础的新型任务，包括新的实验框架、地面真值和指标，并提出了一个强大的基线方法。文章提出了一种算法，将分布式叙事注释传输到 MS COCO 数据集的普透明分割的特定区域。通过使用分割，文中还以精细的层次接近视觉基础问题，并通过包括全景类别来实现图像的内在语义丰富度。

Sep, 2021

基于端到端网络的实时全景叙事性 grounding

本研究提出了一种用于实时PNG的单阶段网络，名为端到端全景叙事接地网（EPNG），通过将两个创新设计：局部感知关注（LPA）和双向语义对齐损失（SAL），用于处理文本表达式和视觉对象之间复杂的多对多关系，从而直接生成指示物的掩模，以及提高分段结果和语义一致性的泛化能力。

Jan, 2023

TextPSG: 从文本描述生成全景场景图

从纯文本描述中生成全景场景图，通过区域分组器、实体对齐器、段合并器和标签生成器构建无显式链接、无预定义概念集的场景理解框架，有效地提高了性能和鲁棒性。

Oct, 2023

上下文有重要性：具有可变形注意力的端到端全景叙述关联匹配网络

提出了一种名为DRMN（Deformable Attention Refined Matching Network）的新颖学习框架，通过引入可变形注意力，在特征学习的迭代过程中融入不同尺度像素的重要上下文信息，从而提高文本短语与图像像素之间的匹配结果。DRMN在PNG基准测试中取得了新的最先进结果，在平均召回率上提高了3.5%。

Oct, 2023

半监督全景叙事基准化

本文介绍了一种新颖的半监督全景叙事 grounding 方案，利用少量带标签的图文对和大量无标签对来实现竞争性性能，并通过质量基配损失调整方法提高半监督网络以克服标注有限的挑战。

Oct, 2023

通过像素和物体背景来丰富短语以用于全景叙事引导

通过设计Phrase-Pixel-Object Transformer Decoder（PPO-TD）来丰富与像素和物体上下文相关的短语特征，并提出Phrase-Object Contrastive Loss（POCL）从短语相关的物体标记中聚合更精确的物体上下文，这使得我们的方法在Panoptic narrative grounding基准测试中取得了新的最先进性能。

Nov, 2023

基于大语言模型的通用实体链接

我们提出了一种新的方法来从长描述中密集地连接视觉实体，利用大型多模态模型提取语义名词，利用无类别分割模型生成实体级分割，采用多模态特征融合模块将每个语义名词与其对应的分割蒙版关联。此方法利用颜色映射对实体分割蒙版进行编码，使得细粒度预测能够保留高分辨率蒙版的特征。该方法使用LMM中的CLIP视觉编码器从低分辨率图像中提取视觉特征，比使用额外编码器处理高分辨率图像的现有方法在计算上更高效。我们的全面实验表明，我们的方法卓越于三个任务，包括全景叙事连接、指称表达分割和全景分割。

Feb, 2024

探索基于短语分时的文本至图像扩散模型

通过扩展扩散模型的架构，本研究提出了一种使用提问学习的方法，实现了基于句子构建的图像理解，进而在零样例的情况下实现了上下文感知的短语级理解，证明了扩散模型在语境感知的短语级理解方面的能力。

Jul, 2024

动态提示冻结文本至图像扩散模型以实现全景叙事对接

本研究解决了全景叙事对接中图像与文本之间的细粒度对齐问题。通过提出一种提取-注入短语适配器(EIPA)，该方法动态更新短语提示以更好地与图像特征交互，显著提高了扩散模型在此任务上的表现。此外，设计的多层互聚合(MLMA)模块进一步增强了多层次特征的融合和细分。实验表明，该方法在基准测试中达到了新的最先进性能。

Sep, 2024