视觉问题回答的忠实多模态解释
本研究提出将端到端的VQA分解为解释和推理两步,使用预训练的属性检测器和图像字幕模型提取图像属性和生成图像描述,然后使用推理模块将这些解释代替图像推断问题的答案。通过对热门VQA数据集进行实验,我们证明了该系统具备解释性和进一步提高解释质量的内在能力。
Jan, 2018
提出了VQA-E任务,要求计算机模型在预测答案的同时生成一个解释。通过多任务学习框架, VQA-E数据集从VQA v2数据集自动导出,用户研究表明,我们的方法可以生成有洞察力的文本句子来证明答案,并提高了答案预测的性能。
Mar, 2018
该研究引入了一个新的视觉问答任务,即识别对原问题产生不同回答的图像,并通过这一任务来评估现有的VQA模型。尽管作者的模型在这一任务上表现出色,但研究结果表明,现有的最先进VQA模型所学习的多模态表示对于这一任务的表现并没有显著贡献,这表明在VQA基准测试上表现良好并不意味着具备更广泛的视觉语义推理能力。
Jun, 2018
该研究提出了自我批判的训练目标,通过确定人类视觉/文本解释或仅来自问题和答案中的重要单词的具有影响力的图像区域,确保正确答案的视觉解释与竞争答案候选者相比更匹配,以解决Visual Question Answering系统在训练数据上捕捉表面统计相关性的问题。应用于VQA-CP数据集,使用文本解释获得49.5%,使用自动注释区域获得48.5%,在VQA泛化任务中达到了最新的技术水平。
May, 2019
该研究提出了一种使用人工文本解释帮助视觉问答(VQA)系统选择正确答案的新框架,通过在人类文本解释上进行训练,VQA系统可以构建更好的问题和视觉内容的表示,并重新计算训练集中生成或检索到的解释的置信度,该方法在VQA和其解释上实现了新的最先进的结果。
Jun, 2020
提出了一种基于知识路线的视觉问题推理 VQA 模型评估数据集,通过控制程序来选择自然场景图和外部知识库中的三元组,强制进行多步推理,并平衡答案分布,以解决现有的 VQA 模型的浅层相关问题和注释程序不均衡的问题。
Dec, 2020
本文介绍了Visual Question Answering——Graph Neural Network模型,用于解决视觉理解中的概念层次推理问题,与现有模型相比,该模型将图像级别信息和概念知识进行了统一,并在VCR任务中取得了优于Trans-VL模型的最佳结果。此外,该模型还提供了跨视觉和文本知识领域的可解释性。
May, 2022
提出了一种基于多任务学习的统一模型(UMAE)来解决现有的视觉问答系统中存在的回答和解释分离的问题,其方法涉及在训练数据集中添加人工提示令牌,并在各种 VQA 相关任务上进行细调,实验证明该模型在准确性、解释性和领域外表现等方面均得到了明显的提高。
Jan, 2023
本文重点研究视觉问答(VQA)中Black-box多模型的解释性问题,提出InterVQA:Interpretable-by-design VQA方法,在保持最新技术水平的同时,设计了明确的中间动态推理结构,强制符号推理仅用于最终答案预测,以产生高质量的明确中间推理步骤。
May, 2023
通过调查Visual Question Answering(视觉问题回答)领域的复杂性,本研究提供了对VQA数据集和方法的详细分类,展示了该领域的最新趋势、挑战和改进方向,并将VQA推广到多模态问答,探索与VQA相关的任务,并提出了一系列未来研究的开放性问题。
Nov, 2023