使用卷积神经网络从图像中学习答案
本研究旨在通过新的模型和数据集解决基于图像的问答问题,使用神经网络和视觉语义嵌入预测有关图像的简单问题的答案,提出了一种将图片描述转化为问答格式的问题生成算法,为新的数据集提供了基线结果。
May, 2015
本研究通过使用卷积神经网络和动态参数层学习来解决图像问答问题,并使用门控循环单元的参数预测网络进行自适应参数预测,进而采用哈希技术降低问题规模。该算法在所有可用的公共图像问答基准测试中取得了最优性能。
Nov, 2015
提出了一种结合图像内容的内部表示和来自广义知识库提取的信息以回答广泛的基于图像的问题的视觉问答方法,可回答自然语言提出的关于图像内容以外信息的问题,显示在 Toronto COCO-QA 和 MS COCO-VQA 数据集上获得最佳结果。
Nov, 2015
本文提出了在成功的卷积神经网络-循环神经网络方法中加入高级概念的方法,并证明其在图像字幕和视觉问答中取得了显著的改进。 该机制还可用于合并外部知识,特别是允许在图像中回答有关内容的问题,即使图像本身不能提供完整答案。
Mar, 2016
本文提出了卷积神经网络来学习问题和回答句子的最佳表现形式,并使用成对匹配的关系信息进行编码,这使得神经网络可以更好地捕捉到问题和答案之间的交互作用,从而有效地提高了准确性。
Apr, 2016
本教程介绍了一种基于神经网络的方法来回答关于真实世界图像内容的问题,使用DAQUAR和VQA数据集进行模型演示,并介绍了Keras和Kraino等深度学习框架,从图像识别方面进行进一步的性能提升。
Oct, 2016
研究使用深度学习框架解决视觉问答任务的方法,探索LSTM网络和VGG-16、K-CNN卷积神经网络提取图像特征,将其与问题的词嵌入或句子嵌入相结合进行答案预测。在Visual Question Answering Challenge 2016中获得了53.62%的准确率。
Oct, 2016
本研究使用标准的TrecQA数据集检验了卷积神经网络(CNNs)在端到端环境中用于答案选择的有效性,发现优化后的idf加权单词重叠算法是一个很强的基线,深度学习在这个数据集上的表现有限,而并不清楚在基于标准检索指标的端到端环境中CNN是否比基线更有效。而进行的人工用户评估证实了CNN产生的答案比idf加权单词重叠更好,这表明用户对答案选择质量的差异非常敏感。
Jul, 2017
本研究探讨了使用生成对抗网络(GANs)、自编码器和注意力机制改进视觉问答(VQA)的创新方法。研究发现,通过利用一个平衡的VQA数据集,GAN-based方法提供了生成与图像和问题相关的答案嵌入的潜力,但在处理较复杂的任务时存在困难。相比之下,基于自编码器的技术专注于学习问题和图像的最佳嵌入,由于在处理复杂问题上能力更强,其结果与GAN-based方法相媲美。最后,注意力机制结合多模态紧凑双线性池化(MCB)来解决语言先验和注意力建模问题,但在复杂性和性能之间需要权衡。本研究强调了VQA领域的挑战和机遇,并提出了未来研究的方向,包括替代GAN的形式和注意力机制。
Apr, 2024