VQA-Machine:掌握使用现有视觉算法回答新问题的方法
本文针对视觉问答任务进行综述,比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估,结合 Visual Genome 数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向,重点关注结构化知识库和自然语言处理模型的连接。
Jul, 2016
本文提出了一种元学习的方法来解决图像问题回答(VQA)问题,并采用了原型网络和元网络两种技术,通过给定的例子来推理解决给定的问题,与现有技术相比,该方法能够产生具有更高罕见回答的召回率和更好的样本效率,是学习和推理基于视觉和语言的方法的重要一步。
Nov, 2017
本篇综述介绍了视觉问答(VQA)任务,包括基于自然语言描述的图像识别以及机器学习模型的研究,主要探讨了近期在该领域中公布的数据集、新的深度学习模型以及基于 VQA 模型的一些应用研究和挑战。
Aug, 2019
在视觉问答中,提出了一种无需使用带有问题和答案的图像进行训练的方法,包括生成问题图表示和制定回答过程,可实现模块化学习和新领域的拓展,并可解释其答案和提供备选答案。
Nov, 2018
本文回顾了近年来计算机视觉和自然语言处理领域关于视觉问答(VQA)的研究,包括问题定义、数据集、算法和评估指标,并深入探讨了当前数据集在训练和评估 VQA 算法方面的局限性,全面回顾了现有的 VQA 算法,最后讨论了 VQA 和图像理解研究的可能未来方向。
Oct, 2016
本文提出了使用图像 - 标题注释与文本问题生成的神经模型自动导出 VQA 示例的方法,从而改进了 VQA 数据的质量和量,并在零样本准确性方面取得了双位数的业界领先水平。
May, 2022
该论文训练了一个视觉问答系统,使用多种模态的数据来回答关于时尚照片中服装的自然语言问题。他们使用大规模的领域特定的多模态数据集来训练该系统,该数据集使用模板自动生成,模型的最高准确性超过了人类专家水平。
Aug, 2022