面向推理感知的可解释视觉问答
本研究提出将端到端的VQA分解为解释和推理两步,使用预训练的属性检测器和图像字幕模型提取图像属性和生成图像描述,然后使用推理模块将这些解释代替图像推断问题的答案。通过对热门VQA数据集进行实验,我们证明了该系统具备解释性和进一步提高解释质量的内在能力。
Jan, 2018
提出了VQA-E任务,要求计算机模型在预测答案的同时生成一个解释。通过多任务学习框架, VQA-E数据集从VQA v2数据集自动导出,用户研究表明,我们的方法可以生成有洞察力的文本句子来证明答案,并提高了答案预测的性能。
Mar, 2018
本文提出了一种新颖的方法,开发了一个高性能的VQA系统,能够通过集成的文本和视觉解释阐述其答案,并捕捉到深度神经网络推理的重要方面,从而比竞争方法具有更好的自动化和人类评估指标。
Sep, 2018
该研究提出了一种使用人工文本解释帮助视觉问答(VQA)系统选择正确答案的新框架,通过在人类文本解释上进行训练,VQA系统可以构建更好的问题和视觉内容的表示,并重新计算训练集中生成或检索到的解释的置信度,该方法在VQA和其解释上实现了新的最先进的结果。
Jun, 2020
本文介绍了Visual Question Answering——Graph Neural Network模型,用于解决视觉理解中的概念层次推理问题,与现有模型相比,该模型将图像级别信息和概念知识进行了统一,并在VCR任务中取得了优于Trans-VL模型的最佳结果。此外,该模型还提供了跨视觉和文本知识领域的可解释性。
May, 2022
提出了一种基于多任务学习的统一模型(UMAE)来解决现有的视觉问答系统中存在的回答和解释分离的问题,其方法涉及在训练数据集中添加人工提示令牌,并在各种 VQA 相关任务上进行细调,实验证明该模型在准确性、解释性和领域外表现等方面均得到了明显的提高。
Jan, 2023
本文重点研究视觉问答(VQA)中Black-box多模型的解释性问题,提出InterVQA:Interpretable-by-design VQA方法,在保持最新技术水平的同时,设计了明确的中间动态推理结构,强制符号推理仅用于最终答案预测,以产生高质量的明确中间推理步骤。
May, 2023
本论文提出了一个可解释的多智能体协作框架,通过利用在广泛语料库上训练的大型语言模型中嵌入的知识,以人类认知为灵感,使用三个智能体,即探索者、回答者和整合者,进行自顶向下推理过程,从而明确地构建特定图像场景的多视图知识库,以自顶向下的处理方式推理答案。我们在多样化的视觉问答数据集和视觉语言模型上对我们的方法进行了广泛评估,并通过全面的实验结果证明了其广泛的适用性和可解释性。
Nov, 2023
本研究解决了视觉问答与自然语言解释任务中推理能力不足的问题。提出了ReRe模型,通过利用记忆中的检索信息来生成准确答案和有说服力的解释,避免了复杂网络和额外数据集的依赖。ReRe在视觉问答准确度和解释评分上均优于以往方法,显示出更强的说服力和可靠性。
Aug, 2024