弱监督词组定位的对比学习
使用图像字幕对弱监督进行自由文本短语连接的问题展开研究,提出了一种新颖的端到端模型,并使用字幕到图像检索作为 “下游” 任务来指导短语定位的过程。
Mar, 2019
文章提出了一种弱监督方法,该方法以图像 - 句子对为输入,学习以空间注意力掩模的形式定位任意语言短语。我们介绍了一种端到端模型,使用两种精心设计的损失函数学习短语的视觉基础,并在句子中使用引诱的解析树结构来确保注意力掩码的补充性及组合性。
May, 2017
本文提出了一种基于弱监督学习、对比学习和目标检测的短语定位方法,旨在解决训练过程中图像区域和句子短语之间缺失链接的问题,并在消除了测试时的目标检测需求后,取得了在视觉短语定位方面的最新成果。
Jul, 2020
本研究提出了一种新的上下文感知弱监督学习方法,它将粗到细的物体细化和实体关系建模结合到一个两阶段深度网络中,以更准确地表述和匹配物体,并通过自我学习回归和关系分析来有效训练必要的分类方法。在 Flickr30K 和 ReferItGame 数据集上的广泛实验表明,本文所提出的弱强化框架比以前的方法具有更好的算法性能,Flickr30K 实体和 ReferItGame 数据集上的 Top-1 准确度分别达到 59.27%和 37.68%。
Mar, 2021
通过采用注意力机制来重构给定的短语,本论文提出了一种新的接近无监督学习的方法来学习 grounding,该方法不需要太多的地面实时监督,有效提高了在 Flickr 30k 实体数据集上的表现。
Nov, 2015
本文提出了一种新型的无监督视觉基础框架,使用概念学习作为代理任务来获得自我监督,以鼓励模型定位和解释语义属性,在多项实验中,该方法在图像本体库、ReferItGame 数据集上分别提升了 5.6% 和 5.8%,在 Flickr30k 数据集上达到了与最先进的表现相媲美的水平。
Mar, 2018
本文提出一种使用图像标题对来进行弱监督的目标检测和短语定位的方法,并利用视觉语言(VL)模型和自监督视觉变压器(ViTs)进行实验,取得了较好的结果。
Jun, 2023
通过使用循环训练程序来帮助模型在生成句子描述并从本地化的图像 / 视频区域中重建句子以匹配基本事实的过程中,提高了图像标题生成模型的文本本地化能力,而不需要使用本地化监督或在推理过程中引入额外的计算。
Jun, 2019
本文提出了一种多模态对齐框架(MAF)来解决注释短语对目标的数据集收集难的问题,通过细粒度视觉表示和视觉感知语言表示模型研究了短语 - 目标相关性,使用对比学习等弱监督学习方法,实现了在 Flickr30k 数据集上对弱监督方法的显著性改进,并在视觉感知语言表示的帮助下,将无监督结果的精度提升了 5.56%。
Oct, 2020