使用软标签链条件随机场实现短语定位
本文介绍了一种通过优化单词 - 区域关注力最大化互信息的方法来学习短语定位,该方法通过利用经过语言模型引导的单词替换来构建有效的负面标题进行训练,进而实现对 CO-Captions 数据集的短语 grounding,使精度提高了 5.7%。
Jun, 2020
使用图像字幕对弱监督进行自由文本短语连接的问题展开研究,提出了一种新颖的端到端模型,并使用字幕到图像检索作为 “下游” 任务来指导短语定位的过程。
Mar, 2019
本文提出了一种基于 LSTM 堆叠的序列上下文模型 (SeqGROUND) 进行短语映射及其在模型架构设计上的有效性的验证,并在 Flickr30K 基准数据集上展示了具有竞争力的表现。
Mar, 2019
通过采用注意力机制来重构给定的短语,本论文提出了一种新的接近无监督学习的方法来学习 grounding,该方法不需要太多的地面实时监督,有效提高了在 Flickr 30k 实体数据集上的表现。
Nov, 2015
本文提出了一种基于图像的短语 grounding 方法,基于一个端到端模型的多重条件嵌入来实现。为了将文本短语划分为语义上的不同子空间,我们提出了一个概念权重分支,可以自动将短语分配到嵌入,而不是像传统方法一样预先定义这些分配。我们的方法简化了个体嵌入的表征需求,并允许未被充分表示的概念在输入到概念特定层之前充分利用共享表示。在三个短语 grounding 数据集上的综合实验验证了我们方法的有效性,从而获得了强大的区域 - 短语嵌入基线 4%,3%和 4% 的性能改进。
Nov, 2017
通过在图像环境中关联文字和短语到图像区域,本文提出了一个框架来共同研究任务表现和短语的关联,并提出了三个基准来研究二者之间的关系。我们的研究结果显示,现有模型在关联短语和解决任务方面存在不一致性。我们展示了如何通过对关联短语注释进行穷举式训练来解决这个问题,并分析了它所产生的动态性。
Sep, 2023
文章提出了一种弱监督方法,该方法以图像 - 句子对为输入,学习以空间注意力掩模的形式定位任意语言短语。我们介绍了一种端到端模型,使用两种精心设计的损失函数学习短语的视觉基础,并在句子中使用引诱的解析树结构来确保注意力掩码的补充性及组合性。
May, 2017
本文提出了一种利用自然语言短语的分类和周围短语的关系、上下文等信息,通过三个模块分析图像中的区域提案,用于检测自然语言短语指代的图像中的对象位置,同时提出了针对弱监督学习的知识转移机制,该方法通过在 Flickr 30k Entities and ReferItGame 数据集上的实验,在自监督和非自监督下均实现了与现有方法相比的改进。
Dec, 2018
本文提出了一种基于语言引导图表示的方法来捕获全局上下文和关系,以及跨模态图匹配策略来解决多短语视觉定位任务,实验证明我们的方法优于现有技术,并提供了开源代码。
Nov, 2019