关系视觉推理中的动态语言绑定

IJCAIApr, 2020

Dynamic Language Binding in Relational Visual Reasoning

Thao Minh Le, Vuong Le, Svetha Venkatesh, Truyen Tran

TL;DR本文提出了一种首个跨越视觉和文本领域的动态关系结构的神经推理方法，可在视觉问答中应用，采用其动态结构反映不断演变的推理上下文，发现有助于多步知识组合和优化的动态图优化问题求解能力。

Abstract

We present Language-binding Object Graph Network, the first neural reasoning method with dynamic relational structures across both visual and textual domains with applications in →

neural reasoning visual question answering dynamic relational structures object predicates co-attention

发现论文，激发创造

指代表达理解的动态图注意力

本文探讨了语言驱动的视觉推理的问题，提出了一种动态图注意力网络来执行多步推理，并针对复杂的语言表达能力生成可解释的视觉证据。实验结果表明，所提出的方法不仅可以显着超过三个常见基准数据集上的所有现有最新算法，而且还能生成可解释的视觉证据来逐步地定位所描述的物体。

Sep, 2019

基于语言条件的图网络用于关系推理

本文提出了一种基于场景上下文化表征的图网络模型，通过文本输入的迭代信息传递来构建物体的语境化表达，以支持关系推理，实验结果表明该方法有效地提高了多项任务和数据集的表现。

May, 2019

动态图生成网络：从图示中生成关系知识

本研究提出了一种新算法，通过结合目标检测和递归神经网络，基于动态内存和图论构建动态图生成网络来分析包含视觉和文本信息的抽象图表，并取得了比其他基准线更好的结果。

Nov, 2017

自然语言引导下的视觉关系检测

本研究提出了一种自然语言引导的框架来解决视觉关系检测任务中对象对之间关系分类的问题，并使用双向循环神经网络以及语义连接来预测参与关系的对象之间的语义连接。该方法在 Visual Relationship Detection 和 Visual Genome 数据集上取得了最佳状态，特别是在未预测关系的情况下。

Nov, 2017

跨域上下文依赖语义解析的动态混合关系网络

本文提出了一个动态图形框架，能够有效地建模上下文话语、令牌、数据库模式及其交互，并通过强大的重新排名模型进一步增强。该模型在 SParC 和 CoSQL 数据集上实现了新的最优表现。

Jan, 2021

VQA-GNN：用多模态语义图推理进行视觉问答

本文介绍了 Visual Question Answering——Graph Neural Network 模型，用于解决视觉理解中的概念层次推理问题，与现有模型相比，该模型将图像级别信息和概念知识进行了统一，并在 VCR 任务中取得了优于 Trans-VL 模型的最佳结果。此外，该模型还提供了跨视觉和文本知识领域的可解释性。

May, 2022

视觉问答中的场景图推理

我们提出了一种基于场景图和强化学习的方法来解决视觉问答任务，实验结果表明该方法在 GQA 数据集上已达到接近人类水平的效果。

Jul, 2020

利用先验视觉关系的场景图推理用于视觉问答

使用结构化可视化表征 —— 场景图，通过可视上下文和语言因素进行关系编码，使用场景图卷积网络实现对对象属性和关系语义的联合推理来回答视觉问题，从而在 GQA 数据集上实现了 54.56％的最高准确率。

Dec, 2018

基于解释的弱监督学习在视觉关系中的应用：图网络

该论文提出了一种新型的弱监督方法，使用最少的图像级谓词标签，利用图神经网络从检测到的对象的图形表示中对图像中的谓词进行分类，将关系检测作为谓词分类器的解释，并在三个不同且具有挑战性的数据集上展示结果，表明该方法具有对不全面注释的强健性和良好的少样本泛化能力。

Jun, 2020

利用内部和外部语言知识蒸馏的视觉关系检测

该研究使用语言统计学的知识来规范视觉模型的训练，在学习视觉关系中的主语、谓语和宾语等实体之间的关系时，可以更准确地反映它们之间的联系。实验结果表明，使用此语言知识提炼，可显著提高模型的检测性能。

Jul, 2017