思考与观察的结合用于基于外部知识的视觉问答

ACLMay, 2023

思考与观察的结合用于基于外部知识的视觉问答

Combo of Thinking and Observing for Outside-Knowledge VQA

Qingyi Si, Yuchen Mo, Zheng Lin, Huishan Ji, Weiping Wang

TL;DR本文提出一种包含多模态编码器、文本编码器和答案解码器的新型框架，将跨模态空间约束到自然语言空间中，使得视觉特征直接保留在其中，并且从自然语言空间中获得更多的类型知识，实验证明其在多数情况下表现优异。

Abstract

Outside-knowledge visual question answering is a challenging task that requires both the acquisition and the use of open-ended real-world knowledge. Some existing solutions draw external knowledge into the cross-modality space which overlooks the much vaster textual knowledge in natura

visual question answering open-ended knowledge acquisition multimodal encoder textual encoder answer decoder

发现论文，激发创造

视觉问答作为阅读理解

本研究提出了一种基于机器阅读理解的方法，通过将视觉和文本特征统一到自然语言中以解决视觉问答中的多模态特征融合问题，并能够处理大规模外部知识库等基于知识的问题。实验结果表明，该方法在三个数据集上性能具有可比性，此为利用文本和自然语言处理技术解决视觉问答问题的一步。

Nov, 2018

基于跨模态知识推理的基于知识的视觉问答

本文提出了基于多个知识图谱的知识的视觉问答模型，通过串联的 GRUC 模块，对不同模态的图像信息进行并行推理，最终利用图神经网络获得全局最优解，在三个流行基准数据集上获得新的 state-of-the-art 表现结果。

Aug, 2020

精确赋能，过度分散：动态注入语言模型中的视觉问答知识

通过提供来自知识图谱中提取的相关外部知识，我们通过增强问题并实现可变数量的三元组，为知识增强的视觉问答模型带来了平均 4.75％的准确匹配得分提升，并展示了其在推理能力和泛化能力方面的优势。

Jun, 2024

OK-VQA：需要外部知识的视觉问答基准

本文提出了名为 OK-VQA 的基于知识的视觉问答基准，要求使用外部知识资源来回答问题，该任务是多样的、困难的和大型的，与以前的基于知识的 VQA 数据集相比具有更高的难度。

May, 2019

预训练多模态密集检索器用于视觉问答中的外部知识

本文研究了外部知识可视化问题回答的一类任务，提出了一种自动数据生成流程以预训练用于 OK-VQA 任务的通道检索模型，该方法相较于当前最先进的不对称体系结构提供了 26.9％的 Precision@5 改进，并且在零 - shot 检索方案中表现出良好的能力。

Jun, 2023

千言万语胜于一幅图：自然语言为中心的外部知识视觉问答

该论文提出了一种利用海量知识库和预训练语言模型的模型，通过将图像转换为纯文本，以进行知识检索和自然语言生成问答，其中使用的框架为 TRiG 框架，并取得了比所有最先进的监督方法多至少 11.1％的绝对优势。

Jan, 2022

利用动态记忆网络结合外部知识回答开放式视觉问题

本文提出了一种基于动态记忆网络和外部知识库的 VQA 算法，通过对外部知识的检索和动态记忆网络对知识和图像的关注与推理，有效地回答包括开放领域问题在内的更复杂问题，并在视觉问答任务中取得了最好的表现。

Dec, 2017

基于知识的多模态 VQA 答案验证

本文提出一种名为 MAVEx 的多模态回答验证方法，采用了图像、文本和常识知识库进行知识检索，通过学习从杂乱无序的知识源中提取相关知识、选择不同候选答案的合适知识源以及以此验证合适答案的方法，从而在知识驱动的视觉问答中取得了最好的实验效果。

Mar, 2021

Mucko: 基于事实的视觉问答的多层交叉模态知识推理

本文提出了一种多模态异构图神经网络来解决基于事实的视觉问答问题，该模型通过逐层的图卷积网络对问题相关证据进行迭代式推理，并在多种数据集上获得了最新的最佳成绩。

Jun, 2020

视觉问答最近进展综述

该论文综述了不同方法来解决视觉问答的问题，特别是描述了各种算法提取图像特征和文本特征的方法，并讨论了评估 VQA 模型的实验，并报告了它们在各种数据集上的表现。

Sep, 2017