利用动态记忆网络结合外部知识回答开放式视觉问题

Dec, 2017

利用动态记忆网络结合外部知识回答开放式视觉问题

Incorporating External Knowledge to Answer Open-Domain Visual Questions with Dynamic Memory Networks

Guohao Li, Hang Su, Wenwu Zhu

TL;DR本文提出了一种基于动态记忆网络和外部知识库的VQA算法，通过对外部知识的检索和动态记忆网络对知识和图像的关注与推理，有效地回答包括开放领域问题在内的更复杂问题，并在视觉问答任务中取得了最好的表现。

Abstract

visual question answering (VQA) has attracted much attention since it offers insight into the relationships between the multi-modal analysis of images and natural language. Most of the current algorithms are inca

发现论文，激发创造

视觉问答的组合记忆

本文提出了一种直接模拟语言和所有可能的本地图像补丁之间的时态动态的端到端方法，使用注意机制将与单词相关的特征和多个本地补丁上可用的特征融合在一起，并将融合的信息进一步结合生成动态信息，最终通过标准问题回答模块和上下文视觉信息和语言信息一起完成问题回答。

Nov, 2015

基于外部知识的自由形式视觉问答

提出了一种结合图像内容的内部表示和来自广义知识库提取的信息以回答广泛的基于图像的问题的视觉问答方法，可回答自然语言提出的关于图像内容以外信息的问题，显示在 Toronto COCO-QA 和 MS COCO-VQA 数据集上获得最佳结果。

Nov, 2015

视觉和文本问答的动态记忆网络

本文通过分析动态记忆网络并提出多项改进，包括一种新的图像输入模块，实现在缺乏支持事实的情况下回答问题，该新型DMN + 模型成功应用于视觉问答数据集和文本问答数据集上，且无需支持事实监督。

Mar, 2016

视觉问答: 方法与数据集综述

本文针对视觉问答任务进行综述，比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估，结合Visual Genome数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向，重点关注结构化知识库和自然语言处理模型的连接。

Jul, 2016

学习视觉知识记忆网络用于视觉问答

本文提出了一种基于VKMN的视觉知识存储网络，通过End-to-End的学习框架将结构化人类知识和深度视觉特征融入到记忆网络中来对抗视觉问答中缺乏对结构化知识的利用的问题，并在VQA 1.0和VQA 2.0基准测试中表现出显著的性能优势，特别是在涉及知识推理的问题方面。

Jun, 2018

基于跨模态知识推理的基于知识的视觉问答

本文提出了基于多个知识图谱的知识的视觉问答模型，通过串联的 GRUC 模块，对不同模态的图像信息进行并行推理，最终利用图神经网络获得全局最优解，在三个流行基准数据集上获得新的 state-of-the-art 表现结果。

Aug, 2020

开放域问答系统能回答视觉知识问题吗？

本研究提出了一种基于文本的视觉问题解答系统，此系统无需额外外部知识，仅利用BERT模型进行重新提问，表现优异，且仅使用训练数据的10％。

Feb, 2022

基于动态键值存储增强的多步图推理方法用于基于知识的视觉问答

本文提出一种名为动态知识记忆增强多步图推理（DMMGR）的新型模型，能够在键-值知识记忆模块和空间感知图像图上执行显式和隐式推理，并在KRVQR和FVQA数据集上实现了新的最先进的准确性。

Mar, 2022

基于记忆增强的多线索推理的知识驱动视觉问答

通过生成多个线索进行推理的记忆神经网络(MCR-MemNN)作为一种全新的框架用于视觉问答，可以更好地利用外部知识来回答更一般性的问题，并且在各模态（图像、问题和知识库）中捕捉到最相关的信息。

Dec, 2023

精确赋能，过度分散：动态注入语言模型中的视觉问答知识

通过提供来自知识图谱中提取的相关外部知识，我们通过增强问题并实现可变数量的三元组，为知识增强的视觉问答模型带来了平均4.75％的准确匹配得分提升，并展示了其在推理能力和泛化能力方面的优势。

Jun, 2024