CLEVR-X:自然语言解释的视觉推理数据集
通过建立人工智能系统,以便对视觉数据进行推理和回答问题,我们需要有诊断测试来分析进展并发现缺点。该研究提出了一种诊断数据集,测试了各种视觉推理能力,包含最小的偏差并具有详细注释,描述每个问题需要的推理类型,用于分析各种现代视觉推理系统,提供了新的洞见,以及它们的能力和限制。
Dec, 2016
本研究提出将端到端的VQA分解为解释和推理两步,使用预训练的属性检测器和图像字幕模型提取图像属性和生成图像描述,然后使用推理模块将这些解释代替图像推断问题的答案。通过对热门VQA数据集进行实验,我们证明了该系统具备解释性和进一步提高解释质量的内在能力。
Jan, 2018
提出了VQA-E任务,要求计算机模型在预测答案的同时生成一个解释。通过多任务学习框架, VQA-E数据集从VQA v2数据集自动导出,用户研究表明,我们的方法可以生成有洞察力的文本句子来证明答案,并提高了答案预测的性能。
Mar, 2018
该研究引入了一个新的视觉问答任务,即识别对原问题产生不同回答的图像,并通过这一任务来评估现有的VQA模型。尽管作者的模型在这一任务上表现出色,但研究结果表明,现有的最先进VQA模型所学习的多模态表示对于这一任务的表现并没有显著贡献,这表明在VQA基准测试上表现良好并不意味着具备更广泛的视觉语义推理能力。
Jun, 2018
本文介绍了一个新的推理任务Visual Entailment(VE),并构建了一个数据集SNLI-VE,用于评估已有的VQA基线和构建了一个名为EVE的模型来解决VE任务,这个模型达到了71%的准确率并展示了EVE通过跨模态注意力可解释性的效果。
Jan, 2019
本文介绍了一种新的方法来生成自然语言的解释,解释视觉问答(VQA)问题的答案,其包含图像中支持答案的证据,使用了场景图中的实体注释和VQA模型生成的关注图来证明。在Visual Genome(VG)数据集上运行算法,并进行内部用户研究,证明了我们的方法的有效性。
Feb, 2019
开发了一个名为CLEVR-Dialog的大型诊断数据集,以研究视觉对话中的多轮推理(multiround reasoning),在其中所有视觉对话的所有方面都得到了完全注释。使用CLEVR-Dialog测量了标准视觉对话模型的性能,特别是针对视觉指代消解(coreference resolution)的表现,并于之前数据集中的模型进行了比较,发现了其中的差异。
Mar, 2019
该研究提出了一种使用人工文本解释帮助视觉问答(VQA)系统选择正确答案的新框架,通过在人类文本解释上进行训练,VQA系统可以构建更好的问题和视觉内容的表示,并重新计算训练集中生成或检索到的解释的置信度,该方法在VQA和其解释上实现了新的最先进的结果。
Jun, 2020
本研究基于CLEVR数据集,将视觉理解提高到更高层次,通过思考特定操作在给定情境下的假想后果来回答问题,并提出了基于最佳现有VQA方法的基线求解器。此外,研究还探讨了多种体系结构实施图像-文本模态联合推论的能力,为开发更好的视觉语言模型提供了思路。
Apr, 2021
为了解决VQA-NLE模型在逻辑推理、事实一致性和语义扰动不敏感性等方面存在的问题,我们提出了一种基于自监督多层对比学习的自然语言解释模型(MCLE),通过提取具有辨别性的特征并将解释的特征空间与视觉问题和答案对齐,生成更一致的解释。我们通过广泛的实验、消融分析和案例研究来证明我们方法的有效性。
Dec, 2023