无配对训练样本的短语本地化

ICCVAug, 2019

Phrase Localization Without Paired Training Examples

Josiah Wang, Lucia Specia

TL;DR该论文提出了一种基于弱监督方法且无需特定任务数据的短语定位方法，利用图像中检测到的对象、场景和颜色探究了衡量语义相似性的不同方法，并在两个短语定位数据集上进行了实验，结果表明该方法超越了所有弱监督方法，并且表现出很强的任务基线能力。

Abstract

Localizing phrases in images is an important part of image understanding and can be useful in many applications that require mappings between textual and visual information. Existing work attempts to learn these mappings from examples of phrase-image region correspondences (strong supe

phrase localization image understanding semantic similarity weakly supervised non-paired

发现论文，激发创造

基于综合图像 - 语言线索的短语定位和视觉关系检测

该论文提出了一种利用大量语言和视觉线索定位或落实图像中短语的框架，该系统在 Flickr30k 实体数据集的短语定位和斯坦福 VRD 数据集的视觉关系检测上取得了最先进的性能。

Nov, 2016

弱监督词组定位的对比学习

本文介绍了一种通过优化单词 - 区域关注力最大化互信息的方法来学习短语定位，该方法通过利用经过语言模型引导的单词替换来构建有效的负面标题进行训练，进而实现对 CO-Captions 数据集的短语 grounding，使精度提高了 5.7%。

Jun, 2020

无需进一步训练即可将 CLIP 用于短语定位

利用对比语言 - 视觉模型 CLIP，我们可以实现无需人工注释或额外训练的短语定位方法，其零样本短语定位性能优于现有无训练方法，并在某些情况下甚至超过了有监督的方法。

Apr, 2022

无监督视觉 grounding 的学习：通过语义自监督

本文提出了一种新型的无监督视觉基础框架，使用概念学习作为代理任务来获得自我监督，以鼓励模型定位和解释语义属性，在多项实验中，该方法在图像本体库、ReferItGame 数据集上分别提升了 5.6% 和 5.8%，在 Flickr30k 数据集上达到了与最先进的表现相媲美的水平。

Mar, 2018

具有语言结构的短语弱监督视觉定位

文章提出了一种弱监督方法，该方法以图像 - 句子对为输入，学习以空间注意力掩模的形式定位任意语言短语。我们介绍了一种端到端模型，使用两种精心设计的损失函数学习短语的视觉基础，并在句子中使用引诱的解析树结构来确保注意力掩码的补充性及组合性。

May, 2017

Align2Ground: 基于图像 - 字幕对准的弱监督短语对齐

使用图像字幕对弱监督进行自由文本短语连接的问题展开研究，提出了一种新颖的端到端模型，并使用字幕到图像检索作为 “下游” 任务来指导短语定位的过程。

Mar, 2019

通过对比知识蒸馏提高弱监督视觉定位

本文提出了一种基于弱监督学习、对比学习和目标检测的短语定位方法，旨在解决训练过程中图像区域和句子短语之间缺失链接的问题，并在消除了测试时的目标检测需求后，取得了在视觉短语定位方面的最新成果。

Jul, 2020

文本短语重建图像基础

通过采用注意力机制来重构给定的短语，本论文提出了一种新的接近无监督学习的方法来学习 grounding，该方法不需要太多的地面实时监督，有效提高了在 Flickr 30k 实体数据集上的表现。

Nov, 2015

UNISON: 无配对跨语言图像字幕

本文提出了一种新颖的基于跨语言无配对数据的图像描述生成方法，通过跨语言的自动编码和跨媒体非监督特征映射实现从图像模态到语言模态的生成，并在汉语图像描述生成任务上展示了其有效性。

Oct, 2020

PhraseCut: 野外语言图像分割

通过对 Visual Genome 数据集的扩充，我们将自然语言短语与图像区域进行分割，并处理大量物体和结构类别及其属性描述，包括颜色、形状、部分以及与图像中其他实体的关系，提出一种模块化的方法来结合类别、属性和关系线索以优化目前状况下的图像分割。

Aug, 2020