展示、询问、关注和回答:视觉问答的强大基线
本文提出了一种基于二元分类的简单替代模型来解决视觉问答中的一些问题,并通过在 Visual7W Telling 和 VQA Real Multiple Choice 任务上的实验表明该模型的简单版本同样具有竞争力,同时,作者发现现有的视觉问答系统性能的瓶颈可能在于其对问题及答案中基础概念的不足认知,其表现相对于充分利用数据集偏见的系统并没有显著提升。
Jun, 2016
本研究提出了一种针对图像和问题的视觉问答算法,包含两个主要模块:第一个模块将问题作为输入,输出主要给定问题的基础问题;第二个模块将问题和图像作为输入,输出问题的基于文本的答案。研究将基础问题生成问题视为 LASSO 优化问题,并提出一种标准来利用这些基础问题帮助回答主要问题。经过在具有挑战性的 VQA 数据集上的验证,本研究的方法实现了最先进的准确性,在开放式任务中达到了 60.34%的准确度。
Mar, 2017
提出了用于视觉问题回答的简单词袋基线模型,使用来自问题的单词特征和图像的 CNN 特征进行拼接以预测答案并在挑战性的 VQA 数据集上显示了与许多最新方法使用递归神经网络相当的性能。同时提供了交互式 Web 演示和开源代码以探索模型的优缺点。
Dec, 2015
本文介绍了一个用于视觉问答(VQA)的最先进模型,这个模型在 2017 年的 VQA 挑战中获得了第一名。通过对超过 3,000 个 GPU 小时的架构和超参数的深入探索,我们发现了许多用于提高性能的 Tips and Tricks。我们详细地分析了它们的影响以协助其他人进行适当的选择。
Aug, 2017
本篇综述介绍了视觉问答(VQA)任务,包括基于自然语言描述的图像识别以及机器学习模型的研究,主要探讨了近期在该领域中公布的数据集、新的深度学习模型以及基于 VQA 模型的一些应用研究和挑战。
Aug, 2019
本文提出了一种利用 LASSO 优化和 Basic Question Dataset (BQD) 以及新的 robustness measure Rscore 来分析 VQA models 鲁棒性的方法,同时希望 BQD 可以成为评估 VQA models 鲁棒性的基准。
Sep, 2017
本文提出了一种元学习的方法来解决图像问题回答(VQA)问题,并采用了原型网络和元网络两种技术,通过给定的例子来推理解决给定的问题,与现有技术相比,该方法能够产生具有更高罕见回答的召回率和更好的样本效率,是学习和推理基于视觉和语言的方法的重要一步。
Nov, 2017