视觉和文本问答的动态记忆网络

Mar, 2016

Dynamic Memory Networks for Visual and Textual Question Answering

Caiming Xiong, Stephen Merity, Richard Socher

TL;DR本文通过分析动态记忆网络并提出多项改进，包括一种新的图像输入模块，实现在缺乏支持事实的情况下回答问题，该新型DMN + 模型成功应用于视觉问答数据集和文本问答数据集上，且无需支持事实监督。

Abstract

Neural network architectures with memory and attention mechanisms exhibit certain reasoning capabilities required for question answering. One such architecture, the →

发现论文，激发创造

记忆网络

本文介绍了一种新的学习模型 - 记忆网络，利用推理组件和长期记忆组件共同学习。这些模型可以用于问答型任务中，长期记忆作为动态知识库，输出为文本响应。在评估中表明记忆网络模型在问答中具有强大的推理能力。

Oct, 2014

问答：面向自然语言处理的动态记忆网络

介绍了一种动态记忆网络(DMN)神经网络架构，它处理输入序列和问题，形成情节性记忆，并生成相关答案，用已训练的词向量表示和输入-问题-答案三元组训练，能在自然语言处理中取得最先进的结果。

Jun, 2015

用于图像问答的叠加注意力网络

本文提出了堆叠式注意力网络（SAN），通过自然语言问题分析图像，发现图像问答需要多层推理，于是我们开发了多层SAN，通过可视化的注意力层，逐层推理以定位答案相关的视觉线索，实验证明SAN明显优于先前的最先进方法。

Nov, 2015

问、看、答：探索基于问题引导的空间关注用于视觉问答

该论文探讨了图像和语言理解的问题，提出了一种基于神经网络的空间记忆网络模型，通过注意力机制进行推理，并在两个视觉问答数据集上取得了改进的结果。

Nov, 2015

视觉问答的组合记忆

本文提出了一种直接模拟语言和所有可能的本地图像补丁之间的时态动态的端到端方法，使用注意机制将与单词相关的特征和多个本地补丁上可用的特征融合在一起，并将融合的信息进一步结合生成动态信息，最终通过标准问题回答模块和上下文视觉信息和语言信息一起完成问题回答。

Nov, 2015

视觉问答: 方法与数据集综述

本文针对视觉问答任务进行综述，比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估，结合Visual Genome数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向，重点关注结构化知识库和自然语言处理模型的连接。

Jul, 2016

记忆增强网络下的视觉问答

本文采用记忆增强型神经网络，通过选择性地关注每个训练示例的内部和外部记忆块来预测视觉问题的准确答案。实验结果表明，所提出的算法在两个大规模基准数据集上具有优越的性能及与现有技术的比较。

Jul, 2017

利用动态记忆网络结合外部知识回答开放式视觉问题

本文提出了一种基于动态记忆网络和外部知识库的VQA算法，通过对外部知识的检索和动态记忆网络对知识和图像的关注与推理，有效地回答包括开放领域问题在内的更复杂问题，并在视觉问答任务中取得了最好的表现。

Dec, 2017

通过虚拟图像进行问答的视觉化思维

本文研究了几何推理在问答中的应用，提出了动态空间记忆网络（DSMN）解决特定问题的新型深度神经网络架构，并在FloorPlanQA数据集上验证了其可行性。

May, 2018

学习视觉知识记忆网络用于视觉问答

本文提出了一种基于VKMN的视觉知识存储网络，通过End-to-End的学习框架将结构化人类知识和深度视觉特征融入到记忆网络中来对抗视觉问答中缺乏对结构化知识的利用的问题，并在VQA 1.0和VQA 2.0基准测试中表现出显著的性能优势，特别是在涉及知识推理的问题方面。

Jun, 2018