基于视觉常识的异构图对比学习

Nov, 2023

Visual Commonsense based Heterogeneous Graph Contrastive Learning

Zongzhao Li, Xiangyu Zhu, Xi Zhang, Zhaoxiang Zhang, Zhen Lei

TL;DR本研究通过引入视觉常识信息和提出异构图对比学习方法，改善视觉推理任务，使模型更专注于具有辨别力的对象和相关的视觉常识属性，并通过图关系网络推理同质边之间的关联和异质边之间的相似性，从而提高了模型的信息传输效果。在四个基准测试上的广泛实验表明，本方法显著改进了七个具有代表性的视觉问答模型，证明了它的有效性和泛化性。

Abstract

How to select relevant key objects and reason about the complex relationships cross vision and linguistic domain are two key issues in many multi-modality applications such as visual question answering (VQA). In this work, we incorporate the visual →

multi-modality applications visual question answering commonsense information contrastive learning graph relation network

发现论文，激发创造

异构图学习用于视觉常识推理

本文提出了一种新的异构图学习框架（HGL），用于在视觉和语言领域之间建立联系，以帮助解决视觉常识推理的挑战，该框架包括主要的 VAHG 模块和双重 QAHG 模块以及上下文投票模块，能更好地进行全局推理。在大规模的视觉常识推理基准测试中，实验结果表明，我们提出的模块在三个任务中均取得了优异的表现。

Oct, 2019

VQA-GNN：用多模态语义图推理进行视觉问答

本文介绍了 Visual Question Answering——Graph Neural Network 模型，用于解决视觉理解中的概念层次推理问题，与现有模型相比，该模型将图像级别信息和概念知识进行了统一，并在 VCR 任务中取得了优于 Trans-VL 模型的最佳结果。此外，该模型还提供了跨视觉和文本知识领域的可解释性。

May, 2022

基于图的异构外部知识推理用于常识问答

本文提出了一种基于知识库和维基百科文本的异构证据自动提取方法以回答常识问题，通过构建图形结构并使用图形卷积网络对邻居信息进行编码并利用图形注意力机制聚合证据来预测最终答案，成功地提高了 CommonsenseQA 数据集上的准确性达到了最先进水平。

Sep, 2019

基于跨模态知识推理的基于知识的视觉问答

本文提出了基于多个知识图谱的知识的视觉问答模型，通过串联的 GRUC 模块，对不同模态的图像信息进行并行推理，最终利用图神经网络获得全局最优解，在三个流行基准数据集上获得新的 state-of-the-art 表现结果。

Aug, 2020

利用先验视觉关系的场景图推理用于视觉问答

使用结构化可视化表征 —— 场景图，通过可视上下文和语言因素进行关系编码，使用场景图卷积网络实现对对象属性和关系语义的联合推理来回答视觉问题，从而在 GQA 数据集上实现了 54.56％的最高准确率。

Dec, 2018

GraghVQA: 基于语言引导的图神经网络用于基于图像的视觉问答

本研究提出了一种基于场景图的自然语言问答模型 GraphVQA，该模型采用语言引导的图神经网络，并使用节点间的多次信息传递来翻译和执行自然语言问题。我们探讨了 GraphVQA 框架的设计空间，并讨论了不同设计选择的权衡。在 GQA 数据集上的实验证明，GraphVQA 明显优于现有模型（88.43% 对 94.78%）。

Apr, 2021

ConVQG：带有多模态引导的对比式视觉问句生成

通过使用对比可视化问题生成（ConVQG）方法，我们成功地提出了一种生成基于图像、文本约束以及知识的对比问题的方法，实验证明 ConVQG 在相关性、图像相关性和知识丰富性等方面优于现有方法，并通过人类评估显示对 ConVQG 问题的偏好。

Feb, 2024

图像 - 文本 - 图形空间粗糙到精细对比学习，旨在提高视觉语言组合能力

通过构建图像场景的文本表示形式，提出了一种图形分解和增强框架以进行对比学习，同时提出了一种用于改善 scene graph 空间中属性绑定和关系理解的负样本挖掘技术，通过大量实验证明了该方法的有效性。

May, 2023

学习条件化图结构以进行可解释的视觉问答

本论文提出了一种基于图形的视觉问答新方法，该方法结合了用于学习问题特定图形表示的图形学习器模块和最近的图形卷积概念，旨在学习能够捕捉问题特定交互的图像表示。该方法在 VQA v2 数据集上获得了 66.18％的准确率，证明了其可解释性。

Jun, 2018

多模态图神经网络用于视觉场景联合推理

利用多模式图神经网络（MM-GNN）作为一种视觉问答（VQA）方法，通过将图像表示为由三个子图组成的图形，利用场景文本中的各种信息来提高节点特征，从而显著提高需要阅读场景文本的两项 VQA 任务的性能。

Mar, 2020