用于可解释图像问题回答的内在子图生成
本文针对视觉问答任务进行综述,比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估,结合Visual Genome数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向,重点关注结构化知识库和自然语言处理模型的连接。
Jul, 2016
本文提出通过建立基于场景信号和问题信息的图结构,应用深度神经网络分析问题的方法来提升视觉问答(VQA)的性能,相比于基于CNN/LSTM的VQA方法,本方法获得了显著的改善,其准确性从71.2%提高到74.4%,在不同的“平衡”场景中的准确性则提高了4.4%。
Sep, 2016
提出了VQA-E任务,要求计算机模型在预测答案的同时生成一个解释。通过多任务学习框架, VQA-E数据集从VQA v2数据集自动导出,用户研究表明,我们的方法可以生成有洞察力的文本句子来证明答案,并提高了答案预测的性能。
Mar, 2018
本论文提出了一种基于图形的视觉问答新方法,该方法结合了用于学习问题特定图形表示的图形学习器模块和最近的图形卷积概念,旨在学习能够捕捉问题特定交互的图像表示。该方法在VQA v2数据集上获得了66.18%的准确率,证明了其可解释性。
Jun, 2018
本文介绍了一种新的方法来生成自然语言的解释,解释视觉问答(VQA)问题的答案,其包含图像中支持答案的证据,使用了场景图中的实体注释和VQA模型生成的关注图来证明。在Visual Genome(VG)数据集上运行算法,并进行内部用户研究,证明了我们的方法的有效性。
Feb, 2019
本文提出了基于多个知识图谱的知识的视觉问答模型,通过串联的 GRUC 模块,对不同模态的图像信息进行并行推理,最终利用图神经网络获得全局最优解,在三个流行基准数据集上获得新的 state-of-the-art 表现结果。
Aug, 2020
本文通过实验探讨使用场景图(Scene Graphs)解决视觉问答(Visual Question Answering)任务。作者采用图像+问题架构研究场景图的各种生成技术,建议一套训练课程以利用人类注释和自动生成的场景图,并通过构建后期融合结构来学习多个图像表示。这份研究提供了使用场景图解决VQA的多方面研究,是其类型中的首次探索。
Jan, 2021
本文介绍了Visual Question Answering——Graph Neural Network模型,用于解决视觉理解中的概念层次推理问题,与现有模型相比,该模型将图像级别信息和概念知识进行了统一,并在VCR任务中取得了优于Trans-VL模型的最佳结果。此外,该模型还提供了跨视觉和文本知识领域的可解释性。
May, 2022
该研究提出了一种基于最先进的VQA框架的端到端解释生成模块,通过引入LSTM和Transformer解码器,生成人类可读的文本解释,同时保持SOTA VQA精度。
Nov, 2022
本文重点研究视觉问答(VQA)中Black-box多模型的解释性问题,提出InterVQA:Interpretable-by-design VQA方法,在保持最新技术水平的同时,设计了明确的中间动态推理结构,强制符号推理仅用于最终答案预测,以产生高质量的明确中间推理步骤。
May, 2023