使用软标签链条件随机场实现短语定位

EMNLPSep, 2019

使用软标签链条件随机场实现短语定位

Phrase Grounding by Soft-Label Chain Conditional Random Field

Jiacheng Liu, Julia Hockenmaier

TL;DR本文提出了一种基于神经链条件随机场（CRFs）和软标签的序列标注方法，用于解决图像标注中常见的短语定位问题，将短语与潜在区域匹配，从而得到更准确的图像标注结果。该方法在 Flickr30k Entities 数据集上取得了最新的最佳性能。

Abstract

The phrase grounding task aims to ground each entity mention in a given caption of an image to a corresponding region in that image. Although there are clear dependencies between how different mentions of the same caption should be grounded, previous →

phrase grounding image captioning neural chain crfs structured prediction soft-label training

发现论文，激发创造

弱监督词组定位的对比学习

本文介绍了一种通过优化单词 - 区域关注力最大化互信息的方法来学习短语定位，该方法通过利用经过语言模型引导的单词替换来构建有效的负面标题进行训练，进而实现对 CO-Captions 数据集的短语 grounding，使精度提高了 5.7%。

Jun, 2020

Align2Ground: 基于图像 - 字幕对准的弱监督短语对齐

使用图像字幕对弱监督进行自由文本短语连接的问题展开研究，提出了一种新颖的端到端模型，并使用字幕到图像检索作为 “下游” 任务来指导短语定位的过程。

Mar, 2019

神经序列短语 grounding (SeqGROUND)

本文提出了一种基于 LSTM 堆叠的序列上下文模型 (SeqGROUND) 进行短语映射及其在模型架构设计上的有效性的验证，并在 Flickr30K 基准数据集上展示了具有竞争力的表现。

Mar, 2019

文本短语重建图像基础

通过采用注意力机制来重构给定的短语，本论文提出了一种新的接近无监督学习的方法来学习 grounding，该方法不需要太多的地面实时监督，有效提高了在 Flickr 30k 实体数据集上的表现。

Nov, 2015

条件图像 - 文本嵌入网络

本文提出了一种基于图像的短语 grounding 方法，基于一个端到端模型的多重条件嵌入来实现。为了将文本短语划分为语义上的不同子空间，我们提出了一个概念权重分支，可以自动将短语分配到嵌入，而不是像传统方法一样预先定义这些分配。我们的方法简化了个体嵌入的表征需求，并允许未被充分表示的概念在输入到概念特定层之前充分利用共享表示。在三个短语 grounding 数据集上的综合实验验证了我们方法的有效性，从而获得了强大的区域 - 短语嵌入基线 4％，3％和 4％的性能改进。

Nov, 2017

视觉解释基础（扩展摘要）

本论文提出了一种新的模型，通过利用在生成的解释中的成分词的本地化接地来确保图像相关性，从而同时生成文本解释和图像。

Nov, 2017

视觉和语言模型中短语定位和任务表现的联合研究

通过在图像环境中关联文字和短语到图像区域，本文提出了一个框架来共同研究任务表现和短语的关联，并提出了三个基准来研究二者之间的关系。我们的研究结果显示，现有模型在关联短语和解决任务方面存在不一致性。我们展示了如何通过对关联短语注释进行穷举式训练来解决这个问题，并分析了它所产生的动态性。

Sep, 2023

具有语言结构的短语弱监督视觉定位

文章提出了一种弱监督方法，该方法以图像 - 句子对为输入，学习以空间注意力掩模的形式定位任意语言短语。我们介绍了一种端到端模型，使用两种精心设计的损失函数学习短语的视觉基础，并在句子中使用引诱的解析树结构来确保注意力掩码的补充性及组合性。

May, 2017

PIRC Net：利用提案索引、关系和语境进行短语定位

本文提出了一种利用自然语言短语的分类和周围短语的关系、上下文等信息，通过三个模块分析图像中的区域提案，用于检测自然语言短语指代的图像中的对象位置，同时提出了针对弱监督学习的知识转移机制，该方法通过在 Flickr 30k Entities and ReferItGame 数据集上的实验，在自监督和非自监督下均实现了与现有方法相比的改进。

Dec, 2018

学习跨模态上下文图进行视觉定位

本文提出了一种基于语言引导图表示的方法来捕获全局上下文和关系，以及跨模态图匹配策略来解决多短语视觉定位任务，实验证明我们的方法优于现有技术，并提供了开源代码。

Nov, 2019