该论文探讨使用引导反向传播和遮挡等可视化技术,解释视觉问答(VQA)模型的工作过程,并发现即使没有显式注意机制,VQA 模型有时也会隐含地关注图像中的相关区域和问题中的适当单词。
Aug, 2016
本文分析了现有的视觉问答(VQA)算法,并使用一个新数据集进行了评估,提出了新的评估方案来补偿过度展示的问题类型,并研究了不同算法的优缺点和注意力机制的作用。
Mar, 2017
本文批判性地审查和回顾了视觉问答算法的方法,例如文本语义的生成、物体的识别和采用共同关注的答案分类技术。
May, 2023
本文提出了一种基于二元分类的简单替代模型来解决视觉问答中的一些问题,并通过在 Visual7W Telling 和 VQA Real Multiple Choice 任务上的实验表明该模型的简单版本同样具有竞争力,同时,作者发现现有的视觉问答系统性能的瓶颈可能在于其对问题及答案中基础概念的不足认知,其表现相对于充分利用数据集偏见的系统并没有显著提升。
Jun, 2016
本文结合注意力机制提出了两种最先进的视觉问答方法,并通过可视化和分析它们的估计注意力图来研究它们的鲁棒性和缺点。研究表明两种方法对特征敏感,同时对于计数和多对象相关的问题表现不佳。该研究结果和分析方法可帮助研究人员识别重要的挑战,以改进自己的 VQA 系统。
Oct, 2018
通过比较视觉问答模型的输出和注意力图与人类的相似之处,研究发现虽然 VQA 模型在结构和识别水平上与人类相似,但在认知推理方面仍然存在挑战。人类思维过程的分析有助于指导未来的研究,并在建模特征和架构中引入更多的认知能力。
Oct, 2023
本篇综述介绍了视觉问答(VQA)任务,包括基于自然语言描述的图像识别以及机器学习模型的研究,主要探讨了近期在该领域中公布的数据集、新的深度学习模型以及基于 VQA 模型的一些应用研究和挑战。
Aug, 2019
该论文研究了视觉问答算法,发现现有算法在自然图像理解和推理两个领域上不能很好地综合运用。作者提出了一种新的 VQA 算法,能够在这两个领域上达到或超越现有算法的水平。
Mar, 2019
通过开发十三种新的注意力机制和引入一种简化的分类器,基于首次在 VQA 挑战中获得第一名的模型进行改进,进行了 300 GPU 小时的大量超参数和架构搜索,我们能够实现 64.78%的评估分数,优于现有最先进的单个模型 63.15%的验证分数。
Mar, 2018
本研究利用规则挖掘算法对视觉问答模型中的数据偏差进行分析,并从中发现了一些亮点和异常行为。
Nov, 2018