无监督视觉 grounding 的学习:通过语义自监督
文章提出了一种弱监督方法,该方法以图像 - 句子对为输入,学习以空间注意力掩模的形式定位任意语言短语。我们介绍了一种端到端模型,使用两种精心设计的损失函数学习短语的视觉基础,并在句子中使用引诱的解析树结构来确保注意力掩码的补充性及组合性。
May, 2017
通过采用注意力机制来重构给定的短语,本论文提出了一种新的接近无监督学习的方法来学习 grounding,该方法不需要太多的地面实时监督,有效提高了在 Flickr 30k 实体数据集上的表现。
Nov, 2015
本研究提出了一种基于深度学习的无监督的文本 grounding(文本与图像上物体的对应关系)方法,并在 ReferIt Game 数据集与 Flickr30k 数据集上分别超过了基线 7.98% 和 6.96%。
Mar, 2018
本文介绍了一种通过优化单词 - 区域关注力最大化互信息的方法来学习短语定位,该方法通过利用经过语言模型引导的单词替换来构建有效的负面标题进行训练,进而实现对 CO-Captions 数据集的短语 grounding,使精度提高了 5.7%。
Jun, 2020
本文提出基于 Transformer 模型的弱监督语义图像分割方法 Text Grounded Semantic Segmentation (TSEG),通过学习从图像级别的文本语句直接生成分割掩模,实现了从提及的表达式中进行图像分割,实验结果表明在 PhraseCut 和 RefCOCO 数据集上 TSEG 表现出了很好的弱监督语义分割效果,并且在 Pascal VOC 数据集的无监督语义分割任务中也具有很强的竞争力。
May, 2022
本文提出了一种自监督的像素表示学习方法,通过使用从图像中提取的视觉概念(例如部件、物体和场景等具有语义意义的像素组)实现语义分割,评估了在三个数据集上学习到的像素嵌入和视觉概念。作者的实验结果表明,该方法在非监督语义分割方面取得了持续和显著的改进,并且视觉概念可以揭示图像数据集的洞见。
Mar, 2022
本研究提出了一种基于 transformer 的视觉定位框架,通过建立文本条件的区分性特征和执行多阶段跨模态推理来实现精确的视觉定位,并提出了基于文本的视觉上下文信息编码器和多阶段解码器以实现最新的性能。
Apr, 2022
本文提出了一种利用自由可得的多模态内容进行无人监督计算机视觉算法训练的方法,通过挖掘大规模的多模态文档语料库中的语义结构进行话题建模,训练卷积神经网络来预测图像最可能出现为插图的语义上下文,有效地学习了区分性视觉特征,其实验结果表明具有比近期的自监督或自然监督方法更好的图像分类、物体检测和多模态检索的性能。
May, 2017
该文介绍了将叙述交互视频逐帧定位的任务,并通过一个多层交叉模态注意力网络实现自我监督的效果,其中交替计算视觉和自然语言模态的相互关注,以有效地进行训练,其表现超过基线模型包括浅层和全跨模态关注。
Oct, 2021