通过使用循环训练程序来帮助模型在生成句子描述并从本地化的图像 / 视频区域中重建句子以匹配基本事实的过程中,提高了图像标题生成模型的文本本地化能力,而不需要使用本地化监督或在推理过程中引入额外的计算。
Jun, 2019
本文介绍了一种通过优化单词 - 区域关注力最大化互信息的方法来学习短语定位,该方法通过利用经过语言模型引导的单词替换来构建有效的负面标题进行训练,进而实现对 CO-Captions 数据集的短语 grounding,使精度提高了 5.7%。
Jun, 2020
文章提出了一种弱监督方法,该方法以图像 - 句子对为输入,学习以空间注意力掩模的形式定位任意语言短语。我们介绍了一种端到端模型,使用两种精心设计的损失函数学习短语的视觉基础,并在句子中使用引诱的解析树结构来确保注意力掩码的补充性及组合性。
May, 2017
本研究提出了一种一阶段的弱监督图像标题生成方法,通过注入关系模块来鼓励多标签分类中的关系理解,从而提高了关注性能和字幕生成准确性,并在两个具有挑战性的数据集上验证了该方法的有效性。
Jun, 2023
使用图像字幕对弱监督进行自由文本短语连接的问题展开研究,提出了一种新颖的端到端模型,并使用字幕到图像检索作为 “下游” 任务来指导短语定位的过程。
Mar, 2019
通过采用注意力机制来重构给定的短语,本论文提出了一种新的接近无监督学习的方法来学习 grounding,该方法不需要太多的地面实时监督,有效提高了在 Flickr 30k 实体数据集上的表现。
Nov, 2015
本研究提出了一种基于 Part-of-Speech 增强图像 - 文本匹配模型的方法(称为 POS-SCAN),以提高图像字幕准确性,并且探讨了图像 - 文本匹配分数作为奖励用于更加接近实际对象的图像字幕训练。
Apr, 2020
本文提出了一种基于上下文推理和多级属性的视觉挖掘及区域描述生成的密集字幕框架,并利用层次化语义属性提供辅助监督,实验结果表明该模型优于现有最先进的方法。
Apr, 2019
本文提出了一种使用平行结构、利用图像和句子之间的相似性及上下文信息生成图像描述的方法,将视觉感知与文本描述相结合,使用场景特定的上下文信息对句子中的词语生成进行调整,在多个流行数据集上的实验表明本方法在生成精准、丰富的图像描述方面表现优异。
Jun, 2015
提出了基于注意力机制的图像描述模型,该模型使用三种成对的交互来建立图像区域、描述文本和 RNN 语言模型之间的依赖关系,并运用空间变换器来生成最佳的区域关注机制,达到了 MSCOCO 数据集上的最佳结果。
Dec, 2016