该研究针对弱监督概念下的图片描述问题,提出了一种基于分布式注意力机制和局部连接信息的部分地基准技术,可以帮助生成最佳的图片描述。
Aug, 2021
使用图像字幕对弱监督进行自由文本短语连接的问题展开研究,提出了一种新颖的端到端模型,并使用字幕到图像检索作为 “下游” 任务来指导短语定位的过程。
Mar, 2019
本研究提出了一种新的上下文感知弱监督学习方法,它将粗到细的物体细化和实体关系建模结合到一个两阶段深度网络中,以更准确地表述和匹配物体,并通过自我学习回归和关系分析来有效训练必要的分类方法。在 Flickr30K 和 ReferItGame 数据集上的广泛实验表明,本文所提出的弱强化框架比以前的方法具有更好的算法性能,Flickr30K 实体和 ReferItGame 数据集上的 Top-1 准确度分别达到 59.27%和 37.68%。
Mar, 2021
本文提出一种使用图像标题对来进行弱监督的目标检测和短语定位的方法,并利用视觉语言(VL)模型和自监督视觉变压器(ViTs)进行实验,取得了较好的结果。
Jun, 2023
本文介绍了一种通过优化单词 - 区域关注力最大化互信息的方法来学习短语定位,该方法通过利用经过语言模型引导的单词替换来构建有效的负面标题进行训练,进而实现对 CO-Captions 数据集的短语 grounding,使精度提高了 5.7%。
Jun, 2020
通过使用循环训练程序来帮助模型在生成句子描述并从本地化的图像 / 视频区域中重建句子以匹配基本事实的过程中,提高了图像标题生成模型的文本本地化能力,而不需要使用本地化监督或在推理过程中引入额外的计算。
Jun, 2019
本文提出一种名为 “基于分离的定位” 的方法,不需使用在弱监督区域定位中常见的预先训练的目标检测器,仅从图像和相关联的自由文本对中直接学习,能够有效地定位文本中的图像区域,并取得了不错的效果。
Apr, 2021
使用文本描述来训练文本分类器,并从中获取足够的信息进行目标实例的弱监督检测,从而实现对于大量自由上传图像信息数据的有效物体定位。
Jul, 2019
本研究提出了一种基于 Part-of-Speech 增强图像 - 文本匹配模型的方法(称为 POS-SCAN),以提高图像字幕准确性,并且探讨了图像 - 文本匹配分数作为奖励用于更加接近实际对象的图像字幕训练。
Apr, 2020
文章提出了一种弱监督方法,该方法以图像 - 句子对为输入,学习以空间注意力掩模的形式定位任意语言短语。我们介绍了一种端到端模型,使用两种精心设计的损失函数学习短语的视觉基础,并在句子中使用引诱的解析树结构来确保注意力掩码的补充性及组合性。
May, 2017