走向透明化的 AI 系统:解释视觉问答模型
本文重点研究视觉问答(VQA)中 Black-box 多模型的解释性问题,提出 InterVQA:Interpretable-by-design VQA 方法,在保持最新技术水平的同时,设计了明确的中间动态推理结构,强制符号推理仅用于最终答案预测,以产生高质量的明确中间推理步骤。
May, 2023
本文提出了一种新颖的方法,开发了一个高性能的 VQA 系统,能够通过集成的文本和视觉解释阐述其答案,并捕捉到深度神经网络推理的重要方面,从而比竞争方法具有更好的自动化和人类评估指标。
Sep, 2018
本篇综述介绍了视觉问答(VQA)任务,包括基于自然语言描述的图像识别以及机器学习模型的研究,主要探讨了近期在该领域中公布的数据集、新的深度学习模型以及基于 VQA 模型的一些应用研究和挑战。
Aug, 2019
本文介绍了一个用于视觉问答(VQA)的最先进模型,这个模型在 2017 年的 VQA 挑战中获得了第一名。通过对超过 3,000 个 GPU 小时的架构和超参数的深入探索,我们发现了许多用于提高性能的 Tips and Tricks。我们详细地分析了它们的影响以协助其他人进行适当的选择。
Aug, 2017
本论文提出一种基于视觉问答的方法来查询深度学习模型的行为,通过在多个医学和自然图像数据集上进行实验,证明该方法较目前方法具有相同或更高的准确度,有效地解决了深度学习方法缺乏透明性的问题。
Mar, 2020
本文提出了一种改进的基于注意力机制的架构,其中包括一个对注意力结果和查询进行关系确定的 AoA 模块,并提出了多模态融合模块来组合视觉和文本信息,结果在 VQA-v2 基准数据集上达到了最先进的性能。
Nov, 2020
本研究分析了基于 Deep Neural Networks 的 Visual Question Answering 模型在真实场景中的应用及其受到问题输入变化的影响,并通过属性的视角对其进行了实验和对比,提出了对抗性攻击的方法,以增强系统对于可能的输入变化的鲁棒性和为视觉障碍者的辅助部署提出新的思路。
Jun, 2020