iVQA: 反向视觉问答
本篇文章提出了 iVQA 问题,利用变分模型来生成多样化、语法正确、与答案相关性较强的问题,并将其作为一种新型的视觉 - 语言理解基准测试。同时,还提出了使用强化学习框架来诊断现有 VQA 模型,揭示其内在缺陷的方法。
Mar, 2018
提出了 Invertible Question Answering Network (iQAN) 框架,该框架通过对 VQA 和 VQG 任务同时训练,利用图像中的问题和答案之间的互补关系,使用对应的参数共享方案和正则项来明确 Q,A 之间的依赖关系,并且明确地指导训练过程。通过在 CLEVR 和 VQA2 数据集上的评估,我们的 iQAN 在基线上提高了 VQA 的准确性,并表明 iQAN 的双学习框架可以推广到其他 VQA 体系结构,并持续改进结果。
Sep, 2017
本文针对视觉问答任务进行综述,比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估,结合 Visual Genome 数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向,重点关注结构化知识库和自然语言处理模型的连接。
Jul, 2016
本篇综述介绍了视觉问答(VQA)任务,包括基于自然语言描述的图像识别以及机器学习模型的研究,主要探讨了近期在该领域中公布的数据集、新的深度学习模型以及基于 VQA 模型的一些应用研究和挑战。
Aug, 2019
本文提出了一种元学习的方法来解决图像问题回答(VQA)问题,并采用了原型网络和元网络两种技术,通过给定的例子来推理解决给定的问题,与现有技术相比,该方法能够产生具有更高罕见回答的召回率和更好的样本效率,是学习和推理基于视觉和语言的方法的重要一步。
Nov, 2017
本文介绍了一种新的任务 ——ViQAR(视觉问题回答和推理),并提出了一种完全生成式的解决方案,它能够为视觉查询生成完整的答案和推理,我们通过定性和定量评估以及人类图灵测试表明,我们的模型能够生成强有力的答案和推理。
Oct, 2020
本文提出了一种基于二元分类的简单替代模型来解决视觉问答中的一些问题,并通过在 Visual7W Telling 和 VQA Real Multiple Choice 任务上的实验表明该模型的简单版本同样具有竞争力,同时,作者发现现有的视觉问答系统性能的瓶颈可能在于其对问题及答案中基础概念的不足认知,其表现相对于充分利用数据集偏见的系统并没有显著提升。
Jun, 2016
该研究通过收集相关的图像,用于构建一个平衡的数据集(VQA v2.0),并在此基础上比较现有的 VQA 模型的表现,发现这些模型都受到了语言先验的影响。此外,该研究还提出了一种可解释性模型,它不仅可以回答问题,而且还可以通过提供一个相似但不同的图像来提高用户对其信任度。
Dec, 2016
本文重点研究视觉问答(VQA)中 Black-box 多模型的解释性问题,提出 InterVQA:Interpretable-by-design VQA 方法,在保持最新技术水平的同时,设计了明确的中间动态推理结构,强制符号推理仅用于最终答案预测,以产生高质量的明确中间推理步骤。
May, 2023