问、看、答:探索基于问题引导的空间关注用于视觉问答
本文提出了堆叠式注意力网络(SAN),通过自然语言问题分析图像,发现图像问答需要多层推理,于是我们开发了多层SAN,通过可视化的注意力层,逐层推理以定位答案相关的视觉线索,实验证明SAN明显优于先前的最先进方法。
Nov, 2015
本文通过分析动态记忆网络并提出多项改进,包括一种新的图像输入模块,实现在缺乏支持事实的情况下回答问题,该新型DMN + 模型成功应用于视觉问答数据集和文本问答数据集上,且无需支持事实监督。
Mar, 2016
通过建立视觉注意力和问题注意力相结合的协作注意力模型,使用新型一维卷积神经网络来在分层结构中处理问题,从而使VQA数据集上的性能从60.3%提高到60.5%,并且在COCO-QA数据集上从61.6%提高到63.3%。在加入 ResNet 模型后,VQA 指标进一步提升至 62.1%,COCO-QA 指标达到 65.4%。
May, 2016
我们通过设计游戏化的注意力注释接口,在Visual Question Answering(VQA)中对人类注意力进行了大规模研究,为此引入了VQA-HAT数据集,在定性和定量方面评估VQA模型生成的注意力信息与人类注意力的相似性。研究结果表明,当前的VQA注意力模型似乎没有关注与人类注意力相同的区域。
Jun, 2016
我们设计了多个游戏化的新颖注意力注释界面,要求对象放大模糊图像的区域以回答有关图像的问题,进而在Visual Question Answering(VQA)中进行了大规模的人类注意力研究,引入了VQA-HAT(Human Attention)数据库集合,将最先进的VQA模型生成的注释地图与人类注意力进行了定性(通过可视化)和定量(通过等级相关性)的评估,总体而言,我们的实验表明,目前VQA中的注意力模型似乎没有关注与人类相同的区域。
Jun, 2016
本文针对视觉问答任务进行综述,比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估,结合Visual Genome数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向,重点关注结构化知识库和自然语言处理模型的连接。
Jul, 2016
本文采用记忆增强型神经网络,通过选择性地关注每个训练示例的内部和外部记忆块来预测视觉问题的准确答案。实验结果表明,所提出的算法在两个大规模基准数据集上具有优越的性能及与现有技术的比较。
Jul, 2017
本文提出通过构建基于网格结构条件随机场上的多变量分布的视觉注意力模型来有效地编码复杂的跨区域关系,并将迭代推理算法转换成端到端的神经网络层,该模型在3个数据集上的实验评估结果表明,它超过了新发布的CLEVR数据集的最佳基线模型9.5%,并超过了VQA数据集上最佳发布模型1.25%。
Aug, 2017
本文提出了一种新颖且通用的注意力机制,可以学习不同数据模态之间的高阶相关性。 作者实验证明高阶相关性可以将适当的关注点引导到不同数据模态中的相关元素,来更好地解决联合任务,如视觉问答(VQA),在 VQA 标准数据集上实现了最先进的性能。
Nov, 2017