询问神经元:视觉问答的深度学习方法
利用图像表示和自然语言处理的最新进展,我们提出了一种端到端形式的 Neural-Image-QA 解决方案来回答真实世界图像上的问题,我们面临一个多模态问题,其中语言输出(答案)是基于视觉和自然语言输入(图像和问题)的,我们的方法可以使已有研究成果的表现效果成倍增加,并提供了关于该问题的额外见解,包括研究人类共识的两个新指标并扩展了初始数据集到 DAQUAR-Consensus。
May, 2015
本篇综述介绍了视觉问答(VQA)任务,包括基于自然语言描述的图像识别以及机器学习模型的研究,主要探讨了近期在该领域中公布的数据集、新的深度学习模型以及基于 VQA 模型的一些应用研究和挑战。
Aug, 2019
提出了一种结合图像内容的内部表示和来自广义知识库提取的信息以回答广泛的基于图像的问题的视觉问答方法,可回答自然语言提出的关于图像内容以外信息的问题,显示在 Toronto COCO-QA 和 MS COCO-VQA 数据集上获得最佳结果。
Nov, 2015
本文针对视觉问答任务进行综述,比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估,结合 Visual Genome 数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向,重点关注结构化知识库和自然语言处理模型的连接。
Jul, 2016
本教程介绍了一种基于神经网络的方法来回答关于真实世界图像内容的问题,使用 DAQUAR 和 VQA 数据集进行模型演示,并介绍了 Keras 和 Kraino 等深度学习框架,从图像识别方面进行进一步的性能提升。
Oct, 2016
本研究旨在通过新的模型和数据集解决基于图像的问答问题,使用神经网络和视觉语义嵌入预测有关图像的简单问题的答案,提出了一种将图片描述转化为问答格式的问题生成算法,为新的数据集提供了基线结果。
May, 2015
本文提出使用卷积神经网络 (CNN) 解决图像问答 (QA) 问题,通过三个 CNN 模型来提升图像和问题共同表示的分类能力。经过 DAQUAR 和 COCO-QA 两个基准测试集的测试,本文的模型表现显著优于现有的最优解。
Jun, 2015
该论文训练了一个视觉问答系统,使用多种模态的数据来回答关于时尚照片中服装的自然语言问题。他们使用大规模的领域特定的多模态数据集来训练该系统,该数据集使用模板自动生成,模型的最高准确性超过了人类专家水平。
Aug, 2022