通过标题的关注蒸馏生成场景图
本文探讨了使用场景图在图像字幕生成中的应用,研究表明添加场景图编码器可以提高字幕描述效果,提出了一种 C-GAT 模型,该模型条件化图更新功能,使用高质量的场景图可与现有的底部 - 顶部基准模型相比获得 3.3 CIDEr 改进。
Sep, 2020
本文提出一种基于时空图模型的视频字幕生成算法,利用物体间相互作用关系提供显式的视觉表征,通过一种对象感知的知识蒸馏机制,可以在不稳定的性能中实现对象的稳定预测。经过对两个基准测试的广泛实验,展示了我们方法的有效性和可解释性预测的竞争性能。
Mar, 2020
通过细粒度的图像场景图表示,我们重新设计了图像标题生成模型,实现了准确、多样、可控制的标题生成,同时在标题多样性、项点化及可控制性等方面均取得了最新最佳结果。
Jul, 2020
本文提出了一种使用平行结构、利用图像和句子之间的相似性及上下文信息生成图像描述的方法,将视觉感知与文本描述相结合,使用场景特定的上下文信息对句子中的词语生成进行调整,在多个流行数据集上的实验表明本方法在生成精准、丰富的图像描述方面表现优异。
Jun, 2015
本文提出了一种新的注意力机制,称为主题引导注意力,在图像字幕生成中应用,通过将图像主题整合到注意力模型中作为指导信息,协助选择最重要的图像特征。在微软 COCO 数据集上的实验结果表明,该方法在各种定量指标上具有最先进的性能。
Jul, 2018
本研究提出了一种基于文本引导注意力模型的图像字幕生成方法,其能够通过联合图片及相应说明文本的训练数据来实现视觉关注,有效地区分图像中的细小或混淆对象,进而在 MS-COCO 图像字幕生成基准测试中获得最佳性能。
Dec, 2016
提出了 SG2Caps 框架,该框架利用场景图标签进行图像说明,以避免昂贵的图形卷积。 该框架利用空间位置和 HOI 标签作为附加的 HOI 图,实现了更好的性能。
Feb, 2021
提出了一种利用场景图生成图像的模型,其中包括图形卷积来处理输入图形、预测对象的边界框和分割掩模来计算场景布局,并使用级联细化网络将布局转换为图像,训练对抗鉴别器来确保生成的图像具有逼真度。
Apr, 2018