视觉蕴涵:一种精细图像理解的新任务
本文针对视觉问答任务进行综述,比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估,结合Visual Genome数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向,重点关注结构化知识库和自然语言处理模型的连接。
Jul, 2016
本研究提出将端到端的VQA分解为解释和推理两步,使用预训练的属性检测器和图像字幕模型提取图像属性和生成图像描述,然后使用推理模块将这些解释代替图像推断问题的答案。通过对热门VQA数据集进行实验,我们证明了该系统具备解释性和进一步提高解释质量的内在能力。
Jan, 2018
本文介绍了一项新的推理任务-视觉蕴含(Visual Entailment,VE),VE与传统的文本蕴含(Textual Entailment,TE)任务不同,它的前提是由图像定义的,而不是像TE任务中那样由自然语言句子定义的。在Stanford自然语言推理语料库和Flickr30k的基础上,提出了一个新的数据集SNLI-VE,并介绍了一种可解释的视觉蕴含模型(EVE)来解决VE问题。此外,本文还将EVE和其他几种最先进的基于视觉问答(VQA)的模型在SNLI-VE数据集上进行了评估,促进了基于语境的语言理解,并提供了关于现代VQA模型性能的见识。
Nov, 2018
本研究提出了一种方法,通过引入一个名为ConVQA的数据集和度量标准,量化衡量视觉问答(VQA)模型的一致性,并建立了一种名为一致性教师模块(CTM)的数据增强模块,该模块可以自动增强源QA对的语义相关问题,从而优化VQA的一致性。在ConVQA数据集上的实验结果表明,我们的方法可以提高现有VQA模型的一致性表现。
Sep, 2019
本研究提出了一个新的 HVQR 基准,用于评估 VQA 系统的解释能力和高阶推理能力,该基准具有多级推理、常识知识库和知识路由模块等特点,并通过大规模数据集进行验证。
Sep, 2019
本文提到了一个新的SNLI-VE corpus数据集,用于识别视觉-文本蕴含,介绍了一个数据收集的过程去修正该数据集的标签错误,进一步评估了更正在的数据集SNLI-VE-2.0,并且提供了开源的人写的自然语言解释用于训练模型,最后测试它们的表现。
Apr, 2020
本文提出了一种基于视觉蕴含的选择性-重新排名(SAR)渐进式框架解决VQA模型的表面相关性问题,通过选取与图像或问题相关的候选答案,并使用视觉蕴含验证每个答案是否可信,实现了对候选答案的有效排序,从而在VQA-CP v2数据集上取得了7.55%的准确率提高,达到了新的最高水平。
Jun, 2021
本文介绍了一个基于机器学习的可视化问答生成自然语言解释过程的方法,使用CLEVR-X数据集进行自然语言解释的基线结果分析,以及研究了不同问题和不同数量的真实解释对自然语言生成质量的影响。
Apr, 2022
提出了一个大规模的视觉问答数据集Encyclopedic-VQA,包括涉及细粒度类别和实例详细属性的视觉问题,并配有来自Wikipedia的知识库作为支持每个答案的证据,可以通过检索增强模型实现对这些问答的准确回答。
Jun, 2023
我们研究了基于知识的视觉问答问题,通过将复杂问题替换为多个简单问题,从图像中提取更相关的信息来增强对图像的理解,并在三个著名的视觉问答数据集中实现了高达2%的准确率提升。
Jun, 2024