指称表达的弱监督分割

May, 2022

Weakly-supervised segmentation of referring expressions

Robin Strudel, Ivan Laptev, Cordelia Schmid

TL;DR本文提出基于 Transformer 模型的弱监督语义图像分割方法 Text Grounded Semantic Segmentation (TSEG)，通过学习从图像级别的文本语句直接生成分割掩模，实现了从提及的表达式中进行图像分割，实验结果表明在 PhraseCut 和 RefCOCO 数据集上 TSEG 表现出了很好的弱监督语义分割效果，并且在 Pascal VOC 数据集的无监督语义分割任务中也具有很强的竞争力。

Abstract

visual grounding localizes regions (boxes or segments) in the image corresponding to given referring expressions. In this work we address image segmentation from →

visual grounding image segmentation referring expressions weakly-supervised transformer-based

发现论文，激发创造

具有语言结构的短语弱监督视觉定位

文章提出了一种弱监督方法，该方法以图像 - 句子对为输入，学习以空间注意力掩模的形式定位任意语言短语。我们介绍了一种端到端模型，使用两种精心设计的损失函数学习短语的视觉基础，并在句子中使用引诱的解析树结构来确保注意力掩码的补充性及组合性。

May, 2017

引用变压器：一种多任务视觉基础的一步方法

本次研究提出了一个基于 transformer 架构的单阶段多任务模型，通过融合视觉和语言输入，实现了高度语义转换的视觉语言解析，通过上下文信息和多任务学习，该模型在包括命名实体识别等任务上，取得了比现有方法更加突出的性能优势。

Jun, 2021

无监督视觉 grounding 的学习：通过语义自监督

本文提出了一种新型的无监督视觉基础框架，使用概念学习作为代理任务来获得自我监督，以鼓励模型定位和解释语义属性，在多项实验中，该方法在图像本体库、ReferItGame 数据集上分别提升了 5.6% 和 5.8%，在 Flickr30k 数据集上达到了与最先进的表现相媲美的水平。

Mar, 2018

弱监督视觉引导的关系感知实例细化

本研究提出了一种新的上下文感知弱监督学习方法，它将粗到细的物体细化和实体关系建模结合到一个两阶段深度网络中，以更准确地表述和匹配物体，并通过自我学习回归和关系分析来有效训练必要的分类方法。在 Flickr30K 和 ReferItGame 数据集上的广泛实验表明，本文所提出的弱强化框架比以前的方法具有更好的算法性能，Flickr30K 实体和 ReferItGame 数据集上的 Top-1 准确度分别达到 59.27％和 37.68％。

Mar, 2021

破碎和聚集：利用文本监督学习参考图像分割

在此研究中，我们使用弱监督学习方法，利用训练图像的文本描述作为唯一的监督来源，解决了训练数据标记成本高昂的问题，并提出了一种新模型来发现输入图像中的语义实体，并组合与文本查询相关的实体来预测指代物的掩码。我们还提出了一种新的损失函数，使得模型可以在没有进一步监督的情况下进行训练。我们的方法在四个公共基准数据集上进行了评估，明显优于相同任务的现有方法和最近的开放词汇分割模型。

Aug, 2023

文本短语重建图像基础

通过采用注意力机制来重构给定的短语，本论文提出了一种新的接近无监督学习的方法来学习 grounding，该方法不需要太多的地面实时监督，有效提高了在 Flickr 30k 实体数据集上的表现。

Nov, 2015

基于语义先验精细调整的弱监督视觉 - 文本链接

论文提出了一种基于弱化监督的视觉文本对齐模型 SPRM，通过组合输出的两个模块的预测结果学习文本短语和边界框之间的对应关系，达到了最先进的实验效果，并且在使用少量训练样例时也具有竞争性能。

May, 2023

利用大规模视觉和文本数据集进行指称表达式的图像分割

本文提出了一种利用现有大规模视觉和文本数据集进行基于语言的图像分割模型训练的方法，并证明该方法可以帮助实现该任务并优于以前的结果。

Aug, 2016

Align2Ground: 基于图像 - 字幕对准的弱监督短语对齐

使用图像字幕对弱监督进行自由文本短语连接的问题展开研究，提出了一种新颖的端到端模型，并使用字幕到图像检索作为 “下游” 任务来指导短语定位的过程。

Mar, 2019

弱监督词组定位的对比学习

本文介绍了一种通过优化单词 - 区域关注力最大化互信息的方法来学习短语定位，该方法通过利用经过语言模型引导的单词替换来构建有效的负面标题进行训练，进而实现对 CO-Captions 数据集的短语 grounding，使精度提高了 5.7%。

Jun, 2020