本文提出一种基于知识引导的配对重构网络(KPRN)框架来解决弱监督参考表达基础(REG)问题,并进行了四个大规模数据集的实验来展现模型的优异性能。
Sep, 2019
文章提出了一种弱监督方法,该方法以图像 - 句子对为输入,学习以空间注意力掩模的形式定位任意语言短语。我们介绍了一种端到端模型,使用两种精心设计的损失函数学习短语的视觉基础,并在句子中使用引诱的解析树结构来确保注意力掩码的补充性及组合性。
May, 2017
使用视觉与语言模型、视觉解释方法和近义词进行微调,目标是提高定位能力和对象高亮质量。在多个数据集中,通过该方法相较于基线方法和之前的工作获得了显著的改进。
Dec, 2023
本文提出了一种新型的无监督视觉基础框架,使用概念学习作为代理任务来获得自我监督,以鼓励模型定位和解释语义属性,在多项实验中,该方法在图像本体库、ReferItGame 数据集上分别提升了 5.6% 和 5.8%,在 Flickr30k 数据集上达到了与最先进的表现相媲美的水平。
Mar, 2018
该研究针对弱监督概念下的图片描述问题,提出了一种基于分布式注意力机制和局部连接信息的部分地基准技术,可以帮助生成最佳的图片描述。
Aug, 2021
本文介绍了一种通过优化单词 - 区域关注力最大化互信息的方法来学习短语定位,该方法通过利用经过语言模型引导的单词替换来构建有效的负面标题进行训练,进而实现对 CO-Captions 数据集的短语 grounding,使精度提高了 5.7%。
Jun, 2020
通过采用注意力机制来重构给定的短语,本论文提出了一种新的接近无监督学习的方法来学习 grounding,该方法不需要太多的地面实时监督,有效提高了在 Flickr 30k 实体数据集上的表现。
Nov, 2015
本研究提出了一种新的上下文感知弱监督学习方法,它将粗到细的物体细化和实体关系建模结合到一个两阶段深度网络中,以更准确地表述和匹配物体,并通过自我学习回归和关系分析来有效训练必要的分类方法。在 Flickr30K 和 ReferItGame 数据集上的广泛实验表明,本文所提出的弱强化框架比以前的方法具有更好的算法性能,Flickr30K 实体和 ReferItGame 数据集上的 Top-1 准确度分别达到 59.27%和 37.68%。
Mar, 2021
本文提出了一种基于弱监督学习、对比学习和目标检测的短语定位方法,旨在解决训练过程中图像区域和句子短语之间缺失链接的问题,并在消除了测试时的目标检测需求后,取得了在视觉短语定位方面的最新成果。
Jul, 2020
本文提出了一种使用自适应重建网络 (ARN) 解决弱监督引用表达地面问题的方法,该模型使用分层注意模型计算每个提案和查询之间的匹配分数,并采用语言重建损失、自适应重建损失和属性分类损失协同重建输入查询,实验证明 ARN 比现有的最新方法在四个大型数据集上表现更好,并能更好地处理特定类别的多个对象位于一起的情况。
Aug, 2019