关系视觉推理中的动态语言绑定
本文探讨了语言驱动的视觉推理的问题,提出了一种动态图注意力网络来执行多步推理,并针对复杂的语言表达能力生成可解释的视觉证据。实验结果表明,所提出的方法不仅可以显着超过三个常见基准数据集上的所有现有最新算法,而且还能生成可解释的视觉证据来逐步地定位所描述的物体。
Sep, 2019
本文提出了一种基于场景上下文化表征的图网络模型,通过文本输入的迭代信息传递来构建物体的语境化表达,以支持关系推理,实验结果表明该方法有效地提高了多项任务和数据集的表现。
May, 2019
本研究提出了一种新算法,通过结合目标检测和递归神经网络,基于动态内存和图论构建动态图生成网络来分析包含视觉和文本信息的抽象图表,并取得了比其他基准线更好的结果。
Nov, 2017
本研究提出了一种自然语言引导的框架来解决视觉关系检测任务中对象对之间关系分类的问题,并使用双向循环神经网络以及语义连接来预测参与关系的对象之间的语义连接。该方法在 Visual Relationship Detection 和 Visual Genome 数据集上取得了最佳状态,特别是在未预测关系的情况下。
Nov, 2017
本文提出了一个动态图形框架,能够有效地建模上下文话语、令牌、数据库模式及其交互,并通过强大的重新排名模型进一步增强。该模型在 SParC 和 CoSQL 数据集上实现了新的最优表现。
Jan, 2021
本文介绍了 Visual Question Answering——Graph Neural Network 模型,用于解决视觉理解中的概念层次推理问题,与现有模型相比,该模型将图像级别信息和概念知识进行了统一,并在 VCR 任务中取得了优于 Trans-VL 模型的最佳结果。此外,该模型还提供了跨视觉和文本知识领域的可解释性。
May, 2022
使用结构化可视化表征 —— 场景图,通过可视上下文和语言因素进行关系编码,使用场景图卷积网络实现对对象属性和关系语义的联合推理来回答视觉问题,从而在 GQA 数据集上实现了 54.56%的最高准确率。
Dec, 2018
该论文提出了一种新型的弱监督方法,使用最少的图像级谓词标签,利用图神经网络从检测到的对象的图形表示中对图像中的谓词进行分类,将关系检测作为谓词分类器的解释,并在三个不同且具有挑战性的数据集上展示结果,表明该方法具有对不全面注释的强健性和良好的少样本泛化能力。
Jun, 2020
该研究使用语言统计学的知识来规范视觉模型的训练,在学习视觉关系中的主语、谓语和宾语等实体之间的关系时,可以更准确地反映它们之间的联系。实验结果表明,使用此语言知识提炼,可显著提高模型的检测性能。
Jul, 2017