探索基于短语分时的文本至图像扩散模型
本文提出了一种基于学习多级共享文本和视觉模态的通用语义空间的方法,通过深度卷积神经网络的多级特征映射和基于字符的语言模型的词和句子嵌入来提取多个通用语义空间,在其中进行图像和文本之间的相关性计算,通过多级多模态注意力机制来指导模型,实现了在图像语句配对的协同注意力下的短语本地化,相比先前最先进的方法性能提升了20%-60%,并在公共基准数据集上有了新的性能纪录。
Nov, 2018
提出一种基于单阶段模型的视觉 grounding 方法,将文本查询的嵌入与 YOLOv3 物体检测器融合,加入空间特征以处理查询中的空间提及,并实现端到端联合优化,实验表明此方法对于短语定位和指代表达理解具有很大的潜力,同时建议在一些常见的区域提议方法上进行细致研究并将视觉 grounding 作为从传统双阶段方法向单阶段框架的范例转移
Aug, 2019
本文提出了一种名为全景叙事基础的新型任务,包括新的实验框架、地面真值和指标,并提出了一个强大的基线方法。文章提出了一种算法,将分布式叙事注释传输到 MS COCO 数据集的普透明分割的特定区域。通过使用分割,文中还以精细的层次接近视觉基础问题,并通过包括全景类别来实现图像的内在语义丰富度。
Sep, 2021
本研究提出了一种简单且非常有效的预训练词嵌入视觉对齐方法,使得即使对于抽象词,我们也能生成受视觉基础支撑的嵌入,并且在一系列的单词相似性基准测试中证明了视觉基础支撑不仅有益于具体词,还有益于抽象词。
Jun, 2022
该研究提出了一种端到端的Pixel-Phrase匹配网络(PPMN),通过密集标注的像素-短语对而非稀疏的区域-短语对进行训练,以直接匹配每个短语与其对应的像素,并将它们简单组合以输出全景分割,同时也开发了一种 Language-Compatible Pixel Aggregation(LCPA)模块来进一步提高短语特征的区分能力,该方法在PNG基准测试中实现了新的最高性能。
Aug, 2022
本研究提出了一种用于实时PNG的单阶段网络,名为端到端全景叙事接地网(EPNG),通过将两个创新设计:局部感知关注(LPA)和双向语义对齐损失(SAL),用于处理文本表达式和视觉对象之间复杂的多对多关系,从而直接生成指示物的掩模,以及提高分段结果和语义一致性的泛化能力。
Jan, 2023
提出了一种名为DRMN(Deformable Attention Refined Matching Network)的新颖学习框架,通过引入可变形注意力,在特征学习的迭代过程中融入不同尺度像素的重要上下文信息,从而提高文本短语与图像像素之间的匹配结果。DRMN在PNG基准测试中取得了新的最先进结果,在平均召回率上提高了3.5%。
Oct, 2023
本文介绍了一种新颖的半监督全景叙事 grounding 方案,利用少量带标签的图文对和大量无标签对来实现竞争性性能,并通过质量基配损失调整方法提高半监督网络以克服标注有限的挑战。
Oct, 2023
通过设计Phrase-Pixel-Object Transformer Decoder(PPO-TD)来丰富与像素和物体上下文相关的短语特征,并提出Phrase-Object Contrastive Loss(POCL)从短语相关的物体标记中聚合更精确的物体上下文,这使得我们的方法在Panoptic narrative grounding基准测试中取得了新的最先进性能。
Nov, 2023
本研究解决了全景叙事对接中图像与文本之间的细粒度对齐问题。通过提出一种提取-注入短语适配器(EIPA),该方法动态更新短语提示以更好地与图像特征交互,显著提高了扩散模型在此任务上的表现。此外,设计的多层互聚合(MLMA)模块进一步增强了多层次特征的融合和细分。实验表明,该方法在基准测试中达到了新的最先进性能。
Sep, 2024