本文提出了场景图自编码器(SGAE),将语言归纳偏差纳入编码器 - 解码器图像字幕框架,以获得更加人性化的字幕。作者使用场景图将图像和句子的复杂结构布局表示,并使用共享字典将感性偏差在视觉语言领域之间传递。实验结果表明,在 MS-COCO 图像字幕基准测试中,基于 SGAE 的单一模型在 Karpathy 分割上取得了新的最高 CIDEr-D 值 127.8,在官方服务器上与其他集成模型相比也获得了 125.5 的竞争 CIDEr-D 值(c40)
Dec, 2018
提出了 SG2Caps 框架,该框架利用场景图标签进行图像说明,以避免昂贵的图形卷积。 该框架利用空间位置和 HOI 标签作为附加的 HOI 图,实现了更好的性能。
Feb, 2021
通过细粒度的图像场景图表示,我们重新设计了图像标题生成模型,实现了准确、多样、可控制的标题生成,同时在标题多样性、项点化及可控制性等方面均取得了最新最佳结果。
Jul, 2020
本文提出了 SCENE 方法,通过使用异构图神经网络编码交通场景,利用层级图卷积和任务特定解码器进行推理和预测。结果表明,该方法在节点分类任务上表现优异,并具有较强的泛化性。
Jan, 2023
通过引入场景图适配器(SG-Adapter)来纠正原始文本嵌入中的不准确性,使生成的图像与复杂情境中的多个对象和关系的人类预期保持一致。
May, 2024
本文探讨了使用场景图在图像字幕生成中的应用,研究表明添加场景图编码器可以提高字幕描述效果,提出了一种 C-GAT 模型,该模型条件化图更新功能,使用高质量的场景图可与现有的底部 - 顶部基准模型相比获得 3.3 CIDEr 改进。
Sep, 2020
研究表明,为了改善 VL 模型的结构理解能力,场景图等结构化标注数据虽然耗时、昂贵和繁琐,但只需要小型数据集,就足以使用专用的模型架构和新的训练范式来提高 VL 模型的表现,通过直接使用场景图标签监督图像和文本编码器,以及添加专门的自适应 SG 令牌和新的适应技术来提高 SG 信息的预测。
May, 2023
通过学习场景图嵌入来直接优化其与图像的对齐以生成语义可操作的图像,该方法使用了遮蔽自编码丢失和对比丢失两种方法训练嵌入,并建立了潜在扩散模型来实现场景图像的生成。在 Visual Genome 和 COCO-Stuff 数据集上,该方法表现优异,超过了当前最好的方法。
Nov, 2022
本研究旨在探讨一种更现实的无监督多模态机器翻译(UMMT)设定 —— 推理时无图片的 UMMT,在该模型中,模型使用源文本图像对进行训练,并且仅使用源文本输入进行测试。为实现推理时的纯文本输入,本文设计了一种视觉场景幻觉机制,用于动态生成伪视觉场景图像。通过无监督方法学习场景图像,本文提出了几个基于场景图象旋转的学习目标。在 Multi30K 数据的基准测试中,我们的 SG 方法在任务和设定上显著优于最佳基准线,帮助生成更完整,相关和流畅性的翻译,而不依赖成对图像。进一步的深入分析揭示了我们的模型如何在任务设置中取得进展。
本文介绍了一种用于建模 Web 规模异构图的异构图转换器架构(HGT),通过设计基于节点类型和边类型的参数来实现异构性,并引入相对时间编码技术和异构迷你批图采样算法来处理动态异构图数据,实验表明,所提出的 HGT 模型在各种下游任务中始终优于所有最先进的 HNN 基线 9%至 21%。
Mar, 2020