通过虚拟图像进行问答的视觉化思维
本文通过分析动态记忆网络并提出多项改进,包括一种新的图像输入模块,实现在缺乏支持事实的情况下回答问题,该新型 DMN + 模型成功应用于视觉问答数据集和文本问答数据集上,且无需支持事实监督。
Mar, 2016
该论文探讨了图像和语言理解的问题,提出了一种基于神经网络的空间记忆网络模型,通过注意力机制进行推理,并在两个视觉问答数据集上取得了改进的结果。
Nov, 2015
本文提出一种名为动态知识记忆增强多步图推理(DMMGR)的新型模型,能够在键 - 值知识记忆模块和空间感知图像图上执行显式和隐式推理,并在 KRVQR 和 FVQA 数据集上实现了新的最先进的准确性。
Mar, 2022
本文提出了一种基于动态记忆网络和外部知识库的 VQA 算法,通过对外部知识的检索和动态记忆网络对知识和图像的关注与推理,有效地回答包括开放领域问题在内的更复杂问题,并在视觉问答任务中取得了最好的表现。
Dec, 2017
本文提出了一种基于 VKMN 的视觉知识存储网络,通过 End-to-End 的学习框架将结构化人类知识和深度视觉特征融入到记忆网络中来对抗视觉问答中缺乏对结构化知识的利用的问题,并在 VQA 1.0 和 VQA 2.0 基准测试中表现出显著的性能优势,特别是在涉及知识推理的问题方面。
Jun, 2018
本文提出了一个自然语言文本中空间推理的问答基准,其中包含更现实的空间现象,并且挑战最先进的语言模型。我们提出了一种远距离监督方法来改善这个任务。具体来说,我们设计语法和推理规则来自动生成视觉场景的空间描述和相应的问答配对。实验证明,进一步预训练语言模型对这些自动生成的数据显著提高了语言模型对空间理解的能力,从而有助于更好地解决两个外部数据集,即 bAbI 和 boolQ。我们希望这项工作能够推动更复杂的文本空间推理模型的研究。
Apr, 2021
本文采用记忆增强型神经网络,通过选择性地关注每个训练示例的内部和外部记忆块来预测视觉问题的准确答案。实验结果表明,所提出的算法在两个大规模基准数据集上具有优越的性能及与现有技术的比较。
Jul, 2017
该论文提出了一种在视觉问答任务中使用通感推理的方法,该方法可以通过显式推理层来解决一些需要额外知识的问题,并提供可解释性的界面。该推理层采用了基于概率的软逻辑引擎,并运用了一篮子输入来进行推理。实验证实了该方法的有效性。
Mar, 2018
介绍了一种动态记忆网络 (DMN) 神经网络架构,它处理输入序列和问题,形成情节性记忆,并生成相关答案,用已训练的词向量表示和输入 - 问题 - 答案三元组训练,能在自然语言处理中取得最先进的结果。
Jun, 2015
本文提出一个框架来单独评估视觉问答(VQA)中的推理方面,同时引入一种新颖的自上而下校准技术,以使模型即使具有不完美的感知也能回答推理问题,通过在具有挑战性的 GQA 数据集上进行深入的分离比较,可以了解到众所周知的 VQA 模型参与的见解以及任务。
Jun, 2020