通过标题的关注蒸馏生成场景图

ICCVOct, 2021

Topic Scene Graph Generation by Attention Distillation from Caption

W. Wang, R. Wang, X. Chen

TL;DR文章阐述了如何使用图像注释中的注意力分配机制来增强场景图的估计能力，提出了一种称为主题场景图的方法，学习从图像到自然语言的映射，并用于关系重要性估计。

Abstract

If an image tells a story, the image caption is the briefest narrator. Generally, a scene graph prefers to be an omniscient generalist, while the

发现论文，激发创造

本文探讨了使用场景图在图像字幕生成中的应用，研究表明添加场景图编码器可以提高字幕描述效果，提出了一种 C-GAT 模型，该模型条件化图更新功能，使用高质量的场景图可与现有的底部 - 顶部基准模型相比获得 3.3 CIDEr 改进。

Sep, 2020

本文提出一种基于时空图模型的视频字幕生成算法，利用物体间相互作用关系提供显式的视觉表征，通过一种对象感知的知识蒸馏机制，可以在不稳定的性能中实现对象的稳定预测。经过对两个基准测试的广泛实验，展示了我们方法的有效性和可解释性预测的竞争性能。

Mar, 2020

通过细粒度的图像场景图表示，我们重新设计了图像标题生成模型，实现了准确、多样、可控制的标题生成，同时在标题多样性、项点化及可控制性等方面均取得了最新最佳结果。

Jul, 2020

本文提出了一种使用平行结构、利用图像和句子之间的相似性及上下文信息生成图像描述的方法，将视觉感知与文本描述相结合，使用场景特定的上下文信息对句子中的词语生成进行调整，在多个流行数据集上的实验表明本方法在生成精准、丰富的图像描述方面表现优异。

Jun, 2015

本文提出了一种新的注意力机制，称为主题引导注意力，在图像字幕生成中应用，通过将图像主题整合到注意力模型中作为指导信息，协助选择最重要的图像特征。在微软 COCO 数据集上的实验结果表明，该方法在各种定量指标上具有最先进的性能。

Jul, 2018

本研究提出了一种基于文本引导注意力模型的图像字幕生成方法，其能够通过联合图片及相应说明文本的训练数据来实现视觉关注，有效地区分图像中的细小或混淆对象，进而在 MS-COCO 图像字幕生成基准测试中获得最佳性能。

Dec, 2016

提出了 SG2Caps 框架，该框架利用场景图标签进行图像说明，以避免昂贵的图形卷积。该框架利用空间位置和 HOI 标签作为附加的 HOI 图，实现了更好的性能。

Feb, 2021

提出了一种利用场景图生成图像的模型，其中包括图形卷积来处理输入图形、预测对象的边界框和分割掩模来计算场景布局，并使用级联细化网络将布局转换为图像，训练对抗鉴别器来确保生成的图像具有逼真度。

Apr, 2018

该研究针对弱监督概念下的图片描述问题，提出了一种基于分布式注意力机制和局部连接信息的部分地基准技术，可以帮助生成最佳的图片描述。

Aug, 2021

本文研究了在场景图生成中如何利用语言结构以及图像标题，通过弱化的监督模式提高模型性能，相比起传统的三元组监督模式，更具伸缩性且更适用于多模态数据。

May, 2021