无需问答训练的 VQA
本文提出了一种元学习的方法来解决图像问题回答(VQA)问题,并采用了原型网络和元网络两种技术,通过给定的例子来推理解决给定的问题,与现有技术相比,该方法能够产生具有更高罕见回答的召回率和更好的样本效率,是学习和推理基于视觉和语言的方法的重要一步。
Nov, 2017
该论文训练了一个视觉问答系统,使用多种模态的数据来回答关于时尚照片中服装的自然语言问题。他们使用大规模的领域特定的多模态数据集来训练该系统,该数据集使用模板自动生成,模型的最高准确性超过了人类专家水平。
Aug, 2022
本文针对视觉问答任务进行综述,比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估,结合 Visual Genome 数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向,重点关注结构化知识库和自然语言处理模型的连接。
Jul, 2016
本文提出了一种评估 VQA 方法能力的新协议,该方法旨在衡量其执行零摄影技术需求 (Zero-Shot VQA) 的能力,并在此过程中凸显了当前方法的一些实际缺陷,其中一些缺陷被当前数据集中的偏见掩盖。通过在预训练单词嵌入和物体分类器等方面进行实验,我们提出并评估了多种实现零摄影技术需求的策略,并在标准 VQA 评估设置中实现了最先进的性能。
Nov, 2016
本研究提出了一种针对图像和问题的视觉问答算法,包含两个主要模块:第一个模块将问题作为输入,输出主要给定问题的基础问题;第二个模块将问题和图像作为输入,输出问题的基于文本的答案。研究将基础问题生成问题视为 LASSO 优化问题,并提出一种标准来利用这些基础问题帮助回答主要问题。经过在具有挑战性的 VQA 数据集上的验证,本研究的方法实现了最先进的准确性,在开放式任务中达到了 60.34%的准确度。
Mar, 2017
本论文提出了一种基于图形的视觉问答新方法,该方法结合了用于学习问题特定图形表示的图形学习器模块和最近的图形卷积概念,旨在学习能够捕捉问题特定交互的图像表示。该方法在 VQA v2 数据集上获得了 66.18%的准确率,证明了其可解释性。
Jun, 2018
提出了一种结合图像内容的内部表示和来自广义知识库提取的信息以回答广泛的基于图像的问题的视觉问答方法,可回答自然语言提出的关于图像内容以外信息的问题,显示在 Toronto COCO-QA 和 MS COCO-VQA 数据集上获得最佳结果。
Nov, 2015