视觉问答模型中显式偏差的发现
该论文探讨使用引导反向传播和遮挡等可视化技术,解释视觉问答(VQA)模型的工作过程,并发现即使没有显式注意机制,VQA 模型有时也会隐含地关注图像中的相关区域和问题中的适当单词。
Aug, 2016
本文介绍了一个用于诊断视觉问答(VQA)模型中快速学习情况的评估方法,并提出了考虑问题和图片的多模态快捷方式问题。通过挖掘诸如词语和视觉元素的共现等规律等方法,首先在流行的 VQA v2 训练集中确定了可能的快速方式,然后引入基于我们的 CounterExamples 子集的 VQA-CounterExamples(VQA-CE)评估协议进行了大规模研究,发现即使是最先进的模型也难以处理这个复杂的问题。
Apr, 2021
通过比较视觉问答模型的输出和注意力图与人类的相似之处,研究发现虽然 VQA 模型在结构和识别水平上与人类相似,但在认知推理方面仍然存在挑战。人类思维过程的分析有助于指导未来的研究,并在建模特征和架构中引入更多的认知能力。
Oct, 2023
本文提出了一种元学习的方法来解决图像问题回答(VQA)问题,并采用了原型网络和元网络两种技术,通过给定的例子来推理解决给定的问题,与现有技术相比,该方法能够产生具有更高罕见回答的召回率和更好的样本效率,是学习和推理基于视觉和语言的方法的重要一步。
Nov, 2017
本文重点研究视觉问答(VQA)中 Black-box 多模型的解释性问题,提出 InterVQA:Interpretable-by-design VQA 方法,在保持最新技术水平的同时,设计了明确的中间动态推理结构,强制符号推理仅用于最终答案预测,以产生高质量的明确中间推理步骤。
May, 2023
本篇综述介绍了视觉问答(VQA)任务,包括基于自然语言描述的图像识别以及机器学习模型的研究,主要探讨了近期在该领域中公布的数据集、新的深度学习模型以及基于 VQA 模型的一些应用研究和挑战。
Aug, 2019
本文研究了基于深度学习模型的视觉问答模型,发现现有模型的准确率在 60-70%之间,且本文提出系统分析这些模型行为的方法,发现这些模型存在缺点,包括不够全面、容易得出错误答案和不易更正的问题。
Jun, 2016
本篇文章提出了 iVQA 问题,利用变分模型来生成多样化、语法正确、与答案相关性较强的问题,并将其作为一种新型的视觉 - 语言理解基准测试。同时,还提出了使用强化学习框架来诊断现有 VQA 模型,揭示其内在缺陷的方法。
Mar, 2018
本文提出了 GQA-OOD 基准来评估视觉问答模型的推理能力,旨在解决现有基准存在的数据集偏差和评估方法的不足,并通过大规模实验验证了现有模型在处理罕见概念时的不足,提出了减少偏差的技术用于未来研究。
Jun, 2020
本文针对视觉问答任务进行综述,比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估,结合 Visual Genome 数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向,重点关注结构化知识库和自然语言处理模型的连接。
Jul, 2016