共识图表示学习用于更好的基于图像的字幕生成

AAAIDec, 2021

共识图表示学习用于更好的基于图像的字幕生成

Consensus Graph Representation Learning for Better Grounded Image Captioning

Wenqiao Zhang, Haochen Shi, Siliang Tang, Jun Xiao, Qiang Yu...

TL;DR本文针对基于场景图的图像描述模型中存在的物体虚幻问题，提出了利用语义完整性和视觉相关性混合的 CGRL 框架，以提高图像描述和定位准确性。结果表明，该方法显著降低了物体虚幻的发生率，同时提高了图像描述和物体定位的质量。

Abstract

The contemporary visual captioning models frequently hallucinate objects that are not actually in a scene, due to the visual misclassification or over-reliance on priors that resulting in the semantic inconsistency between the visual information and the target lexical words. The most common way is to encourage the captioning model to dynamically link generat

grounded image captioning object hallucination consensus graph representation learning semantic consistency visual relevance

发现论文，激发创造

循环一致性学习用于字幕生成和定位

我们提出了一个名为 CyCo 的循环一致学习框架，用于连接视觉定位和图像描述，实现二者的协同训练；这个框架不仅允许半弱监督训练视觉定位，而且改善了全监督视觉定位的性能，并且生成了一个通用的图像描述模型，能够描述任意的图像区域。大量实验证明，我们的全监督视觉定位模型达到了最先进的性能水平，半弱监督模型相较于全监督模型也表现出竞争力。我们的图像描述模型能够自由地描述图像区域，并在常见的图像描述评估中表现出了令人印象深刻的性能。

Dec, 2023

为图像字幕生成辩护：场景图的重要性

提出了 SG2Caps 框架，该框架利用场景图标签进行图像说明，以避免昂贵的图形卷积。该框架利用空间位置和 HOI 标签作为附加的 HOI 图，实现了更好的性能。

Feb, 2021

对图像字幕生成所需的语言单词与视觉语义单位进行对齐

本文提出了一种结合图卷积网络（GCN）的视觉语义单元对象相互作用的图形语义和几何建模方法，利用上下文门控注意力模块将当前单词与视觉语义单元对齐，针对 MS-COCO 图像字幕数据集，与现有方法相比报告了更好的结果。

Aug, 2019

学习跨模态上下文图进行视觉定位

本文提出了一种基于语言引导图表示的方法来捕获全局上下文和关系，以及跨模态图匹配策略来解决多短语视觉定位任务，实验证明我们的方法优于现有技术，并提供了开源代码。

Nov, 2019

视觉基础复合 PCFG

本文将视觉与语言相结合用于语言理解，采用一种基于概率无上下文文法模型的 full-differentiable 端到端视觉理解模型，在 MSCOCO 测试标题上取得了新的最佳效果，证实了视觉基础在短语结构语法归纳中的有效性。

Sep, 2020

图像字幕中的目标幻觉

该论文提出了一种新的图像相关性度量标准，以评估当前的图像字幕模型，防止物体幻觉现象，并探讨模型架构和学习目标对物体幻觉的贡献，以及语言先验对幻觉的影响，研究发现表现最佳的图像字幕模型并不总是具有较低的幻觉，并且出现幻觉的模型往往受到语言先验驱动的错误的影响。

Sep, 2018

基于关系图学习的视频描述生成

本研究设计了一种新颖的关系图学习框架，包括一种语言细化的场景图表示，探索细粒度的视觉概念，并解决了对象幻觉问题。实验结果表明，本方法可以生成更精细和准确的描述。

Dec, 2021

学习语义特定图表示用于多标签图像识别

提出了一种 Semantic-Specific Graph Representation Learning (SSGRL) 的框架，包含两个重要模块：语义解耦模块和语义交互模块，其中语义解耦模块结合类别语义以指导学习语义特定表示，语义交互模块则将这些表示与基于统计标签共现构建的图相互关联，可以通过图传播机制来探索它们的相互作用，通过大量的公共基准测试，证明 SSGRL 框架优于现有的最新方法。

Aug, 2019

使用场景图进行增量式目标定位

本文介绍了一种基于场景图和语言结构的递增式 grounding 模型 (IGSG)，通过使用场景图中的对象之间的关系，构造问答对话方式以消除人类命令的歧义和错误，该模型在现实场景中表现出可接受的性能，可以有效地通过回问式问答消除歧义的问题。

Jan, 2022

异构图学习用于视觉常识推理

本文提出了一种新的异构图学习框架（HGL），用于在视觉和语言领域之间建立联系，以帮助解决视觉常识推理的挑战，该框架包括主要的 VAHG 模块和双重 QAHG 模块以及上下文投票模块，能更好地进行全局推理。在大规模的视觉常识推理基准测试中，实验结果表明，我们提出的模块在三个任务中均取得了优异的表现。

Oct, 2019