开放域问答系统能回答视觉知识问题吗?
使用来自大规模知识库的信息来推理图片内容,解释推理过程并回答自然语言问题的视觉问答方法,比主流的长短时记忆方法更能回答复杂问题且表现明显更好,同时提供了数据集和协议来评估这类方法。
Nov, 2015
提出了一种结合图像内容的内部表示和来自广义知识库提取的信息以回答广泛的基于图像的问题的视觉问答方法,可回答自然语言提出的关于图像内容以外信息的问题,显示在 Toronto COCO-QA 和 MS COCO-VQA 数据集上获得最佳结果。
Nov, 2015
本文针对视觉问答任务进行综述,比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估,结合Visual Genome数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向,重点关注结构化知识库和自然语言处理模型的连接。
Jul, 2016
该研究提出了一种新颖的方法,利用标注类别的图像和未标注文本语料库,为视觉问题回答中出现的未查询过的物体提供支持。通过实验验证和分析,表明该方法能够显著提高模型的鲁棒性和性能。
Apr, 2017
本文提出了一种基于动态记忆网络和外部知识库的VQA算法,通过对外部知识的检索和动态记忆网络对知识和图像的关注与推理,有效地回答包括开放领域问题在内的更复杂问题,并在视觉问答任务中取得了最好的表现。
Dec, 2017
本文提出了名为OK-VQA的基于知识的视觉问答基准,要求使用外部知识资源来回答问题,该任务是多样的、困难的和大型的,与以前的基于知识的VQA数据集相比具有更高的难度。
May, 2019
该研究针对现有数据集中存在的限制,建立了一个新的基于结构模式的跨模态问答数据集和挑战,同时提出了一个基于神经网络的透明的 OKVQA 系统 S3,该系统在新数据集上实现了比较好的表现。
Mar, 2021
介绍了 A-OKVQA 数据集,它包含了约 25000 个多样化的问题,需要广泛的常识和世界知识才能回答,相对于现有的基于知识的 VQA 数据集,这些问题通常不能通过简单地查询知识库来回答,而是需要对图像中所描绘的场景进行某种形式的常识推理,该数据集对几种最先进的视觉语言模型进行了基础性能测试。
Jun, 2022
知识引导的视觉问题回答(KB-VQA)通过外部知识库的辅助,为图像和相关的文本问题提供正确答案。本文提出了一种名为Graph pATH rankER(GATHER)的新型KB-VQA框架,通过构建图、修剪和路径级别排序,不仅能够准确检索答案,还提供解释推理过程的路径。通过在真实世界问题上的广泛实验,证明了该框架不仅能够在整个知识库上进行开放式问题回答,还能提供明确的推理路径。
Oct, 2023
这篇研究论文介绍了一种基于知识的视觉问答(KB-VQA)问题的方法,通过在上下文中进行高效的学习,使用问题相关的标题作为上下文信息,而无需训练或访问外部数据库或API,实现了最先进的准确度。
Oct, 2023