视觉和文本问答的动态记忆网络
介绍了一种动态记忆网络 (DMN) 神经网络架构,它处理输入序列和问题,形成情节性记忆,并生成相关答案,用已训练的词向量表示和输入 - 问题 - 答案三元组训练,能在自然语言处理中取得最先进的结果。
Jun, 2015
本文研究了几何推理在问答中的应用,提出了动态空间记忆网络(DSMN)解决特定问题的新型深度神经网络架构,并在 FloorPlanQA 数据集上验证了其可行性。
May, 2018
本文提出了一种基于动态记忆网络和外部知识库的 VQA 算法,通过对外部知识的检索和动态记忆网络对知识和图像的关注与推理,有效地回答包括开放领域问题在内的更复杂问题,并在视觉问答任务中取得了最好的表现。
Dec, 2017
本研究提出一种视频故事问答架构,名为 Multimodal Dual Attention Memory (MDAM)。使用双重注意机制,结合自我注意力和注意力机制在场景帧和字幕中学习潜在的概念,并在双重注意力处理后执行多模态融合,从而学习从整个视频内容的抽象中推断出高级视觉语言联合表示。在 PororoQA 和 MovieQA 数据集上,该模型均取得了新的最优结果,并通过消融研究验证了双重注意机制与后期融合的最佳性能。
Sep, 2018
我们提出了动态协同注意网络(DCN)来解决深度学习模型在问题回答中可能会遇到局部极大值的问题,并在 Stanford 问题回答数据集上将准确率从 71.0% F1 提高到 75.9% F1,使用 DCN 合奏能够获得 80.4% F1。
Nov, 2016
本文提出了一种基于 VKMN 的视觉知识存储网络,通过 End-to-End 的学习框架将结构化人类知识和深度视觉特征融入到记忆网络中来对抗视觉问答中缺乏对结构化知识的利用的问题,并在 VQA 1.0 和 VQA 2.0 基准测试中表现出显著的性能优势,特别是在涉及知识推理的问题方面。
Jun, 2018
本文提出一种名为动态知识记忆增强多步图推理(DMMGR)的新型模型,能够在键 - 值知识记忆模块和空间感知图像图上执行显式和隐式推理,并在 KRVQR 和 FVQA 数据集上实现了新的最先进的准确性。
Mar, 2022
本文提出了一种新的生成解码结构,其中单词的生成被分解成一系列基于注意力的信息选择步骤。利用 Deliberation、Abandon 和 Memory 模块来进行适应性选择,结合了编码器捕获的响应级语义和为生成每个单词专门选择的单词级语义。该结构在可维持语义准确性的同时,生成的响应更加详细和非重复,并且相对于编码器是灵活的。将 Deliberation、Abandon 和 Memory 模块应用到三个典型的编码器,并在 VisDial v1.0 数据集上验证了性能,实验结果表明,所提出的模型取得了高质量响应的新的最优性能。
Jul, 2020
论文提出了一种新的分层记忆网络 (Hierarchical Memory Networks, HMN),它利用注意力机制在句子级别和单词级别的记忆上分别进行推理,以处理在答案中出现较少或不知道的词汇,并在实验中证明其表现优于记忆网络。
Sep, 2016
通过引入能够对文本段进行推理的组件、以概率性和可微分的方式执行数字和日期等符号推理的组件,提出了一种改进的神经模块网络(NMNs)模型,提高了非合成问题的预测效果,实验结果表明,该模型在 DROP 数据集上取得了显著的性能提升。
Dec, 2019