弱监督词组定位的对比学习

ECCVJun, 2020

Contrastive Learning for Weakly Supervised Phrase Grounding

Tanmay Gupta, Arash Vahdat, Gal Chechik, Xiaodong Yang, Jan Kautz...

TL;DR本文介绍了一种通过优化单词 - 区域关注力最大化互信息的方法来学习短语定位，该方法通过利用经过语言模型引导的单词替换来构建有效的负面标题进行训练，进而实现对 CO-Captions 数据集的短语 grounding，使精度提高了 5.7%。

Abstract

phrase grounding, the problem of associating image regions to caption words, is a crucial component of vision-language tasks. We show that phrase grounding can be learned by optimizing →

phrase grounding word-region attention mutual information negative captions weakly supervised

发现论文，激发创造

Align2Ground: 基于图像 - 字幕对准的弱监督短语对齐

使用图像字幕对弱监督进行自由文本短语连接的问题展开研究，提出了一种新颖的端到端模型，并使用字幕到图像检索作为 “下游” 任务来指导短语定位的过程。

Mar, 2019

具有语言结构的短语弱监督视觉定位

文章提出了一种弱监督方法，该方法以图像 - 句子对为输入，学习以空间注意力掩模的形式定位任意语言短语。我们介绍了一种端到端模型，使用两种精心设计的损失函数学习短语的视觉基础，并在句子中使用引诱的解析树结构来确保注意力掩码的补充性及组合性。

May, 2017

通过对比知识蒸馏提高弱监督视觉定位

本文提出了一种基于弱监督学习、对比学习和目标检测的短语定位方法，旨在解决训练过程中图像区域和句子短语之间缺失链接的问题，并在消除了测试时的目标检测需求后，取得了在视觉短语定位方面的最新成果。

Jul, 2020

分布式注意力用于基于图像描述的场景理解

该研究针对弱监督概念下的图片描述问题，提出了一种基于分布式注意力机制和局部连接信息的部分地基准技术，可以帮助生成最佳的图片描述。

Aug, 2021

弱监督视觉引导的关系感知实例细化

本研究提出了一种新的上下文感知弱监督学习方法，它将粗到细的物体细化和实体关系建模结合到一个两阶段深度网络中，以更准确地表述和匹配物体，并通过自我学习回归和关系分析来有效训练必要的分类方法。在 Flickr30K 和 ReferItGame 数据集上的广泛实验表明，本文所提出的弱强化框架比以前的方法具有更好的算法性能，Flickr30K 实体和 ReferItGame 数据集上的 Top-1 准确度分别达到 59.27％和 37.68％。

Mar, 2021

文本短语重建图像基础

通过采用注意力机制来重构给定的短语，本论文提出了一种新的接近无监督学习的方法来学习 grounding，该方法不需要太多的地面实时监督，有效提高了在 Flickr 30k 实体数据集上的表现。

Nov, 2015

无监督视觉 grounding 的学习：通过语义自监督

本文提出了一种新型的无监督视觉基础框架，使用概念学习作为代理任务来获得自我监督，以鼓励模型定位和解释语义属性，在多项实验中，该方法在图像本体库、ReferItGame 数据集上分别提升了 5.6% 和 5.8%，在 Flickr30k 数据集上达到了与最先进的表现相媲美的水平。

Mar, 2018

读取、查看和检测：从图像 - 标题对中标注边界框

本文提出一种使用图像标题对来进行弱监督的目标检测和短语定位的方法，并利用视觉语言（VL）模型和自监督视觉变压器（ViTs）进行实验，取得了较好的结果。

Jun, 2023

无需定位监督学习生成有依据的视觉描述

通过使用循环训练程序来帮助模型在生成句子描述并从本地化的图像 / 视频区域中重建句子以匹配基本事实的过程中，提高了图像标题生成模型的文本本地化能力，而不需要使用本地化监督或在推理过程中引入额外的计算。

Jun, 2019

MAF：用于弱监督短语定位的多模态对齐框架

本文提出了一种多模态对齐框架（MAF）来解决注释短语对目标的数据集收集难的问题，通过细粒度视觉表示和视觉感知语言表示模型研究了短语 - 目标相关性，使用对比学习等弱监督学习方法，实现了在 Flickr30k 数据集上对弱监督方法的显著性改进，并在视觉感知语言表示的帮助下，将无监督结果的精度提升了 5.56%。

Oct, 2020