神经序列短语 grounding (SeqGROUND)
文章提出了一种弱监督方法,该方法以图像 - 句子对为输入,学习以空间注意力掩模的形式定位任意语言短语。我们介绍了一种端到端模型,使用两种精心设计的损失函数学习短语的视觉基础,并在句子中使用引诱的解析树结构来确保注意力掩码的补充性及组合性。
May, 2017
通过采用注意力机制来重构给定的短语,本论文提出了一种新的接近无监督学习的方法来学习 grounding,该方法不需要太多的地面实时监督,有效提高了在 Flickr 30k 实体数据集上的表现。
Nov, 2015
本文提出了一种基于图像的短语 grounding 方法,基于一个端到端模型的多重条件嵌入来实现。为了将文本短语划分为语义上的不同子空间,我们提出了一个概念权重分支,可以自动将短语分配到嵌入,而不是像传统方法一样预先定义这些分配。我们的方法简化了个体嵌入的表征需求,并允许未被充分表示的概念在输入到概念特定层之前充分利用共享表示。在三个短语 grounding 数据集上的综合实验验证了我们方法的有效性,从而获得了强大的区域 - 短语嵌入基线 4%,3%和 4% 的性能改进。
Nov, 2017
使用图像字幕对弱监督进行自由文本短语连接的问题展开研究,提出了一种新颖的端到端模型,并使用字幕到图像检索作为 “下游” 任务来指导短语定位的过程。
Mar, 2019
本文提出了一个名为 SeqPAN 的并行注意力网络,用于解决视频 grounding 时的多模态表示学习和目标时刻边界预测问题。通过一个自主引导的并行注意力模块,SeqPAN 可以有效地捕捉自我模态上下文和视频文本的跨模态关注信息,并使用序列匹配策略指导开始 / 结束边界的预测。实验结果表明,SeqPAN 优于现有最先进方法。另外,自主引导的并行关注模块和序列匹配模块的有效性得到了验证。
May, 2021
本文提出了一种基于神经链条件随机场(CRFs)和软标签的序列标注方法,用于解决图像标注中常见的短语定位问题,将短语与潜在区域匹配,从而得到更准确的图像标注结果。该方法在 Flickr30k Entities 数据集上取得了最新的最佳性能。
Sep, 2019
本文提出了一个名为 SeqTR 的简单且通用的网络,用于视觉定位任务和指代表达理解任务,通过将视觉定位问题视为图像和文本输入的点预测问题,可以在 SeqTR 网络中统一视觉定位任务而无需任务特定的分支或头,使用简单的交叉熵损失进一步降低了手工损失函数的复杂性,并且在五个基准数据集上进行的实验证明了 SeqTR 的可行性和优越性。
Mar, 2022
本文提出了一种基于学习多级共享文本和视觉模态的通用语义空间的方法,通过深度卷积神经网络的多级特征映射和基于字符的语言模型的词和句子嵌入来提取多个通用语义空间,在其中进行图像和文本之间的相关性计算,通过多级多模态注意力机制来指导模型,实现了在图像语句配对的协同注意力下的短语本地化,相比先前最先进的方法性能提升了 20%-60%,并在公共基准数据集上有了新的性能纪录。
Nov, 2018
本文提出了一种基于语言引导图表示的方法来捕获全局上下文和关系,以及跨模态图匹配策略来解决多短语视觉定位任务,实验证明我们的方法优于现有技术,并提供了开源代码。
Nov, 2019
本研究提出了一种基于 Part-of-Speech 增强图像 - 文本匹配模型的方法(称为 POS-SCAN),以提高图像字幕准确性,并且探讨了图像 - 文本匹配分数作为奖励用于更加接近实际对象的图像字幕训练。
Apr, 2020