无监督视觉 grounding 的学习：通过语义自监督

NIPSMar, 2018

无监督视觉 grounding 的学习：通过语义自监督

Learning Unsupervised Visual Grounding Through Semantic Self-Supervision

Syed Ashar Javed, Shreyas Saxena, Vineet Gandhi

TL;DR本文提出了一种新型的无监督视觉基础框架，使用概念学习作为代理任务来获得自我监督，以鼓励模型定位和解释语义属性，在多项实验中，该方法在图像本体库、ReferItGame 数据集上分别提升了 5.6% 和 5.8%，在 Flickr30k 数据集上达到了与最先进的表现相媲美的水平。

Abstract

Localizing natural language phrases in images is a challenging problem that requires joint understanding of both the textual and visual modalities. In the unsupervised setting, lack of supervisory signals exacerbate this difficulty. In this paper, we propose a novel framework for unsupervised

visual grounding unsupervised learning concept learning natural language processing image localization

发现论文，激发创造

具有语言结构的短语弱监督视觉定位

文章提出了一种弱监督方法，该方法以图像 - 句子对为输入，学习以空间注意力掩模的形式定位任意语言短语。我们介绍了一种端到端模型，使用两种精心设计的损失函数学习短语的视觉基础，并在句子中使用引诱的解析树结构来确保注意力掩码的补充性及组合性。

May, 2017

文本短语重建图像基础

通过采用注意力机制来重构给定的短语，本论文提出了一种新的接近无监督学习的方法来学习 grounding，该方法不需要太多的地面实时监督，有效提高了在 Flickr 30k 实体数据集上的表现。

Nov, 2015

无监督文本 grounding: 将词语与图像概念相连

本研究提出了一种基于深度学习的无监督的文本 grounding（文本与图像上物体的对应关系）方法，并在 ReferIt Game 数据集与 Flickr30k 数据集上分别超过了基线 7.98% 和 6.96%。

Mar, 2018

通过自洽解释改进的视觉对准

使用视觉与语言模型、视觉解释方法和近义词进行微调，目标是提高定位能力和对象高亮质量。在多个数据集中，通过该方法相较于基线方法和之前的工作获得了显著的改进。

Dec, 2023

弱监督词组定位的对比学习

本文介绍了一种通过优化单词 - 区域关注力最大化互信息的方法来学习短语定位，该方法通过利用经过语言模型引导的单词替换来构建有效的负面标题进行训练，进而实现对 CO-Captions 数据集的短语 grounding，使精度提高了 5.7%。

Jun, 2020

指称表达的弱监督分割

本文提出基于 Transformer 模型的弱监督语义图像分割方法 Text Grounded Semantic Segmentation (TSEG)，通过学习从图像级别的文本语句直接生成分割掩模，实现了从提及的表达式中进行图像分割，实验结果表明在 PhraseCut 和 RefCOCO 数据集上 TSEG 表现出了很好的弱监督语义分割效果，并且在 Pascal VOC 数据集的无监督语义分割任务中也具有很强的竞争力。

May, 2022

基于视觉概念的自监督语义分割

本文提出了一种自监督的像素表示学习方法，通过使用从图像中提取的视觉概念（例如部件、物体和场景等具有语义意义的像素组）实现语义分割，评估了在三个数据集上学习到的像素嵌入和视觉概念。作者的实验结果表明，该方法在非监督语义分割方面取得了持续和显著的改进，并且视觉概念可以揭示图像数据集的洞见。

Mar, 2022

通过视觉语言验证和迭代推理来改善视觉定位

本研究提出了一种基于 transformer 的视觉定位框架，通过建立文本条件的区分性特征和执行多阶段跨模态推理来实现精确的视觉定位，并提出了基于文本的视觉上下文信息编码器和多阶段解码器以实现最新的性能。

Apr, 2022

通过将图像嵌入文本主题空间进行自监督的视觉特征学习

本文提出了一种利用自由可得的多模态内容进行无人监督计算机视觉算法训练的方法，通过挖掘大规模的多模态文档语料库中的语义结构进行话题建模，训练卷积神经网络来预测图像最可能出现为插图的语义上下文，有效地学习了区分性视觉特征，其实验结果表明具有比近期的自监督或自然监督方法更好的图像分类、物体检测和多模态检索的性能。

May, 2017

自我监督的空间位置辅助指令视频中的叙述理解

该文介绍了将叙述交互视频逐帧定位的任务，并通过一个多层交叉模态注意力网络实现自我监督的效果，其中交替计算视觉和自然语言模态的相互关注，以有效地进行训练，其表现超过基线模型包括浅层和全跨模态关注。

Oct, 2021