本文研究了基于深度学习模型的视觉问答模型,发现现有模型的准确率在60-70%之间,且本文提出系统分析这些模型行为的方法,发现这些模型存在缺点,包括不够全面、容易得出错误答案和不易更正的问题。
Jun, 2016
本文分析了现有的视觉问答(VQA)算法,并使用一个新数据集进行了评估,提出了新的评估方案来补偿过度展示的问题类型,并研究了不同算法的优缺点和注意力机制的作用。
Mar, 2017
本文介绍了一种新的视觉问答任务的基线模型,它可以根据图像的内容和自然语言的问题准确地产生答案,并取得了在不平衡和平衡的VQA基准测试中的最新成果。
Apr, 2017
本文介绍了一个用于视觉问答(VQA)的最先进模型,这个模型在2017年的VQA挑战中获得了第一名。通过对超过3,000个GPU小时的架构和超参数的深入探索,我们发现了许多用于提高性能的Tips and Tricks。我们详细地分析了它们的影响以协助其他人进行适当的选择。
Aug, 2017
本文提出了一种元学习的方法来解决图像问题回答(VQA)问题,并采用了原型网络和元网络两种技术,通过给定的例子来推理解决给定的问题,与现有技术相比,该方法能够产生具有更高罕见回答的召回率和更好的样本效率,是学习和推理基于视觉和语言的方法的重要一步。
Nov, 2017
本文提出了一个新的 VQA 模型,其中通过引入不同的先验分布来防止模型仅仅依赖训练数据中的先验信息。该模型是 GVQA,与现有 VQA 模型相比,它具有更好的泛化性能和可解释性能。
Dec, 2017
本篇文章提出了iVQA问题,利用变分模型来生成多样化、语法正确、与答案相关性较强的问题,并将其作为一种新型的视觉-语言理解基准测试。同时,还提出了使用强化学习框架来诊断现有VQA模型,揭示其内在缺陷的方法。
Mar, 2018
本文介绍了一种基于元学习和数据检索的视觉问答方法,该方法不需要训练数据,能够使用外部数据来源来回答各种问题,实验表明该方法在VQA-CP v2基准测试中表现优异,并且对于迁移学习领域具有更强的稳健性。
Apr, 2019
本篇综述介绍了视觉问答(VQA)任务,包括基于自然语言描述的图像识别以及机器学习模型的研究,主要探讨了近期在该领域中公布的数据集、新的深度学习模型以及基于 VQA 模型的一些应用研究和挑战。
Aug, 2019
本文提出了一种基于数据增强的方法 SimpleAug,在不增加人工标注数量的情况下,将数据集中隐含的知识显式化,以此加强针对多模态信息的视觉问答模型,并在两个基准数据集上取得了不错的表现。
Sep, 2021