本文探讨了使用场景图在图像字幕生成中的应用,研究表明添加场景图编码器可以提高字幕描述效果,提出了一种 C-GAT 模型,该模型条件化图更新功能,使用高质量的场景图可与现有的底部 - 顶部基准模型相比获得 3.3 CIDEr 改进。
Sep, 2020
通过构建图像场景的文本表示形式,提出了一种图形分解和增强框架以进行对比学习,同时提出了一种用于改善 scene graph 空间中属性绑定和关系理解的负样本挖掘技术,通过大量实验证明了该方法的有效性。
May, 2023
文章阐述了如何使用图像注释中的注意力分配机制来增强场景图的估计能力,提出了一种称为主题场景图的方法,学习从图像到自然语言的映射,并用于关系重要性估计。
Oct, 2021
提出了 SG2Caps 框架,该框架利用场景图标签进行图像说明,以避免昂贵的图形卷积。 该框架利用空间位置和 HOI 标签作为附加的 HOI 图,实现了更好的性能。
Feb, 2021
本文提出了一种用于图像字幕生成的可分解的相互递归生成过程,通过对语义和句法明确的因式分解,更好地保留了语义内容。所提出的组合过程需要较少的数据进行训练,并具有更好的广义和多样性。
Oct, 2018
本研究提出了一种基于场景图的方法来进行非配对图像描述,用于生成不需要图像 - 文字配对的结果,显著超过现有方法的表现。
Mar, 2019
本文提出一种生成整段文字描述图片的方法,相比仅仅用一句话进行描述,该方法能够提供更加细致以及连贯的故事情节。该方法使用了分层递归神经网络对图片中的语义区域以及自然语言进行建模并生成整段文字。在实验中该方法被证明是较为有效的。
Nov, 2016
提出了一种利用场景图生成图像的模型,其中包括图形卷积来处理输入图形、预测对象的边界框和分割掩模来计算场景布局,并使用级联细化网络将布局转换为图像,训练对抗鉴别器来确保生成的图像具有逼真度。
Apr, 2018
本文提出了一种新的图像字幕架构,通过构建以字幕为导向的视觉关系图以及利用弱监督多实例学习引入有益的归纳偏差来增强图像表示和字幕生成,实现多模态问题解决和优化。在 MSCOCO 数据集上进行广泛实验,证明该框架在多种评估指标下取得了业内最优表现。
Jun, 2020
该论文研究了图像编码模型的组合推广问题,使用多任务模型相结合的方法,结合了描述生成和图像 - 句子排序,并使用重新排序的解码机制,该模型在描述未见过的概念时比现有现有模型表现更好。
Sep, 2019