视觉问答算法分析
本文提出了一种基于二元分类的简单替代模型来解决视觉问答中的一些问题,并通过在 Visual7W Telling 和 VQA Real Multiple Choice 任务上的实验表明该模型的简单版本同样具有竞争力,同时,作者发现现有的视觉问答系统性能的瓶颈可能在于其对问题及答案中基础概念的不足认知,其表现相对于充分利用数据集偏见的系统并没有显著提升。
Jun, 2016
本文针对视觉问答任务进行综述,比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估,结合 Visual Genome 数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向,重点关注结构化知识库和自然语言处理模型的连接。
Jul, 2016
该论文研究了视觉问答算法,发现现有算法在自然图像理解和推理两个领域上不能很好地综合运用。作者提出了一种新的 VQA 算法,能够在这两个领域上达到或超越现有算法的水平。
Mar, 2019
本文回顾了近年来计算机视觉和自然语言处理领域关于视觉问答(VQA)的研究,包括问题定义、数据集、算法和评估指标,并深入探讨了当前数据集在训练和评估 VQA 算法方面的局限性,全面回顾了现有的 VQA 算法,最后讨论了 VQA 和图像理解研究的可能未来方向。
Oct, 2016
本篇综述介绍了视觉问答(VQA)任务,包括基于自然语言描述的图像识别以及机器学习模型的研究,主要探讨了近期在该领域中公布的数据集、新的深度学习模型以及基于 VQA 模型的一些应用研究和挑战。
Aug, 2019
本研究提出了一种针对图像和问题的视觉问答算法,包含两个主要模块:第一个模块将问题作为输入,输出主要给定问题的基础问题;第二个模块将问题和图像作为输入,输出问题的基于文本的答案。研究将基础问题生成问题视为 LASSO 优化问题,并提出一种标准来利用这些基础问题帮助回答主要问题。经过在具有挑战性的 VQA 数据集上的验证,本研究的方法实现了最先进的准确性,在开放式任务中达到了 60.34%的准确度。
Mar, 2017