记忆增强网络下的视觉问答
该论文探讨了图像和语言理解的问题,提出了一种基于神经网络的空间记忆网络模型,通过注意力机制进行推理,并在两个视觉问答数据集上取得了改进的结果。
Nov, 2015
本文提出了一种直接模拟语言和所有可能的本地图像补丁之间的时态动态的端到端方法,使用注意机制将与单词相关的特征和多个本地补丁上可用的特征融合在一起,并将融合的信息进一步结合生成动态信息,最终通过标准问题回答模块和上下文视觉信息和语言信息一起完成问题回答。
Nov, 2015
本文通过分析动态记忆网络并提出多项改进,包括一种新的图像输入模块,实现在缺乏支持事实的情况下回答问题,该新型DMN + 模型成功应用于视觉问答数据集和文本问答数据集上,且无需支持事实监督。
Mar, 2016
本文提出了一种基于循环深度神经网络的视觉问答算法,其中每个模块都对应着一个自身具备注意机制的完整的回答单元;该网络的优化基于所有单元汇聚起来的损失函数,同时这些单元共享模型参数,并接收不同信息来计算注意概率。实验结果表明,该算法在 VQA 数据集上的性能优于其他多步注意力机制。
Jun, 2016
本文针对视觉问答任务进行综述,比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估,结合Visual Genome数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向,重点关注结构化知识库和自然语言处理模型的连接。
Jul, 2016
本文提出了一种元学习的方法来解决图像问题回答(VQA)问题,并采用了原型网络和元网络两种技术,通过给定的例子来推理解决给定的问题,与现有技术相比,该方法能够产生具有更高罕见回答的召回率和更好的样本效率,是学习和推理基于视觉和语言的方法的重要一步。
Nov, 2017
本文提出了一种基于动态记忆网络和外部知识库的VQA算法,通过对外部知识的检索和动态记忆网络对知识和图像的关注与推理,有效地回答包括开放领域问题在内的更复杂问题,并在视觉问答任务中取得了最好的表现。
Dec, 2017
本文提出了一种基于VKMN的视觉知识存储网络,通过End-to-End的学习框架将结构化人类知识和深度视觉特征融入到记忆网络中来对抗视觉问答中缺乏对结构化知识的利用的问题,并在VQA 1.0和VQA 2.0基准测试中表现出显著的性能优势,特别是在涉及知识推理的问题方面。
Jun, 2018
通过生成多个线索进行推理的记忆神经网络(MCR-MemNN)作为一种全新的框架用于视觉问答,可以更好地利用外部知识来回答更一般性的问题,并且在各模态(图像、问题和知识库)中捕捉到最相关的信息。
Dec, 2023