将视觉场景图转换为图像说明

ACLMay, 2023

Transforming Visual Scene Graphs to Image Captions

Xu Yang, Jiawei Peng, Zihua Wang, Haiyang Xu, Qinghao Ye...

TL;DR本论文提出了一种新的图像 / 视频描述方法，称之为 TSG，它使用多头注意力机制 (MHA) 和混合专家解码器，将场景图转换为更具描述性的字幕，并在 MS-COCO 数据集上取得了很好的效果。

Abstract

We propose to transform scene graphs (TSG) into more descriptive captions. In TSG, we apply multi-head attention (MHA) to design the graph neural

transform scene graphs multi-head attention graph neural network mixture-of-expert image/video captioning

发现论文，激发创造

自动编码场景图像生成图像描述

本文提出了场景图自编码器（SGAE），将语言归纳偏差纳入编码器 - 解码器图像字幕框架，以获得更加人性化的字幕。作者使用场景图将图像和句子的复杂结构布局表示，并使用共享字典将感性偏差在视觉语言领域之间传递。实验结果表明，在 MS-COCO 图像字幕基准测试中，基于 SGAE 的单一模型在 Karpathy 分割上取得了新的最高 CIDEr-D 值 127.8，在官方服务器上与其他集成模型相比也获得了 125.5 的竞争 CIDEr-D 值（c40）

Dec, 2018

为图像字幕生成辩护：场景图的重要性

提出了 SG2Caps 框架，该框架利用场景图标签进行图像说明，以避免昂贵的图形卷积。该框架利用空间位置和 HOI 标签作为附加的 HOI 图，实现了更好的性能。

Feb, 2021

通过场景图分解实现全面图像字幕化

通过细粒度的图像场景图表示，我们重新设计了图像标题生成模型，实现了准确、多样、可控制的标题生成，同时在标题多样性、项点化及可控制性等方面均取得了最新最佳结果。

Jul, 2020

SCENE: 使用异构图神经网络推理交通场景

本文提出了 SCENE 方法，通过使用异构图神经网络编码交通场景，利用层级图卷积和任务特定解码器进行推理和预测。结果表明，该方法在节点分类任务上表现优异，并具有较强的泛化性。

Jan, 2023

SG-Adapter：使用场景图引导增强文本到图像生成

通过引入场景图适配器（SG-Adapter）来纠正原始文本嵌入中的不准确性，使生成的图像与复杂情境中的多个对象和关系的人类预期保持一致。

May, 2024

场景图是否足够好以改进图像字幕？

本文探讨了使用场景图在图像字幕生成中的应用，研究表明添加场景图编码器可以提高字幕描述效果，提出了一种 C-GAT 模型，该模型条件化图更新功能，使用高质量的场景图可与现有的底部 - 顶部基准模型相比获得 3.3 CIDEr 改进。

Sep, 2020

使用场景图将结构化表示法加入预训练视觉与语言模型

研究表明，为了改善 VL 模型的结构理解能力，场景图等结构化标注数据虽然耗时、昂贵和繁琐，但只需要小型数据集，就足以使用专用的模型架构和新的训练范式来提高 VL 模型的表现，通过直接使用场景图标签监督图像和文本编码器，以及添加专门的自适应 SG 令牌和新的适应技术来提高 SG 信息的预测。

May, 2023

基于扩散的场景图像生成及带掩膜对比预训练

通过学习场景图嵌入来直接优化其与图像的对齐以生成语义可操作的图像，该方法使用了遮蔽自编码丢失和对比丢失两种方法训练嵌入，并建立了潜在扩散模型来实现场景图像的生成。在 Visual Genome 和 COCO-Stuff 数据集上，该方法表现优异，超过了当前最好的方法。

Nov, 2022

场景图作为枢轴：基于视觉场景虚构的推理时无图像非监督多模式机器翻译

本研究旨在探讨一种更现实的无监督多模态机器翻译（UMMT）设定 —— 推理时无图片的 UMMT，在该模型中，模型使用源文本图像对进行训练，并且仅使用源文本输入进行测试。为实现推理时的纯文本输入，本文设计了一种视觉场景幻觉机制，用于动态生成伪视觉场景图像。通过无监督方法学习场景图像，本文提出了几个基于场景图象旋转的学习目标。在 Multi30K 数据的基准测试中，我们的 SG 方法在任务和设定上显著优于最佳基准线，帮助生成更完整，相关和流畅性的翻译，而不依赖成对图像。进一步的深入分析揭示了我们的模型如何在任务设置中取得进展。

May, 2023

异质图变换器

本文介绍了一种用于建模 Web 规模异构图的异构图转换器架构（HGT），通过设计基于节点类型和边类型的参数来实现异构性，并引入相对时间编码技术和异构迷你批图采样算法来处理动态异构图数据，实验表明，所提出的 HGT 模型在各种下游任务中始终优于所有最先进的 HNN 基线 9％至 21％。

Mar, 2020