通过场景图分解实现全面图像字幕化

ECCVJul, 2020

通过场景图分解实现全面图像字幕化

Comprehensive Image Captioning via Scene Graph Decomposition

Yiwu Zhong, Liwei Wang, Jianshu Chen, Dong Yu, Yin Li

TL;DR通过细粒度的图像场景图表示，我们重新设计了图像标题生成模型，实现了准确、多样、可控制的标题生成，同时在标题多样性、项点化及可控制性等方面均取得了最新最佳结果。

Abstract

We address the challenging problem of image captioning by revisiting the representation of image scene graph. At the core of our method lies the decomposition of a scene graph into a set of sub-graphs, with each

image captioning image scene graph deep model caption diversity controllability

发现论文，激发创造

场景图是否足够好以改进图像字幕？

本文探讨了使用场景图在图像字幕生成中的应用，研究表明添加场景图编码器可以提高字幕描述效果，提出了一种 C-GAT 模型，该模型条件化图更新功能，使用高质量的场景图可与现有的底部 - 顶部基准模型相比获得 3.3 CIDEr 改进。

Sep, 2020

图像 - 文本 - 图形空间粗糙到精细对比学习，旨在提高视觉语言组合能力

通过构建图像场景的文本表示形式，提出了一种图形分解和增强框架以进行对比学习，同时提出了一种用于改善 scene graph 空间中属性绑定和关系理解的负样本挖掘技术，通过大量实验证明了该方法的有效性。

May, 2023

通过标题的关注蒸馏生成场景图

文章阐述了如何使用图像注释中的注意力分配机制来增强场景图的估计能力，提出了一种称为主题场景图的方法，学习从图像到自然语言的映射，并用于关系重要性估计。

Oct, 2021

为图像字幕生成辩护：场景图的重要性

提出了 SG2Caps 框架，该框架利用场景图标签进行图像说明，以避免昂贵的图形卷积。该框架利用空间位置和 HOI 标签作为附加的 HOI 图，实现了更好的性能。

Feb, 2021

图像生成字幕的神经组合范式

本文提出了一种用于图像字幕生成的可分解的相互递归生成过程，通过对语义和句法明确的因式分解，更好地保留了语义内容。所提出的组合过程需要较少的数据进行训练，并具有更好的广义和多样性。

Oct, 2018

通过场景图对齐进行非配对图片描述

本研究提出了一种基于场景图的方法来进行非配对图像描述，用于生成不需要图像 - 文字配对的结果，显著超过现有方法的表现。

Mar, 2019

生成描述性图像段落的分层方法

本文提出一种生成整段文字描述图片的方法，相比仅仅用一句话进行描述，该方法能够提供更加细致以及连贯的故事情节。该方法使用了分层递归神经网络对图片中的语义区域以及自然语言进行建模并生成整段文字。在实验中该方法被证明是较为有效的。

Nov, 2016

从场景图生成图像

提出了一种利用场景图生成图像的模型，其中包括图形卷积来处理输入图形、预测对象的边界框和分割掩模来计算场景布局，并使用级联细化网络将布局转换为图像，训练对抗鉴别器来确保生成的图像具有逼真度。

Apr, 2018

更好地利用图片描述提升图像字幕质量

本文提出了一种新的图像字幕架构，通过构建以字幕为导向的视觉关系图以及利用弱监督多实例学习引入有益的归纳偏差来增强图像表示和字幕生成，实现多模态问题解决和优化。在 MSCOCO 数据集上进行广泛实验，证明该框架在多种评估指标下取得了业内最优表现。

Jun, 2020

图像字幕中的组合泛化

该论文研究了图像编码模型的组合推广问题，使用多任务模型相结合的方法，结合了描述生成和图像 - 句子排序，并使用重新排序的解码机制，该模型在描述未见过的概念时比现有现有模型表现更好。

Sep, 2019