Jan, 2018

Tell-and-Answer: 基于属性和字幕的可解释视觉问答

TL;DR本研究提出将端到端的 VQA 分解为解释和推理两步,使用预训练的属性检测器和图像字幕模型提取图像属性和生成图像描述,然后使用推理模块将这些解释代替图像推断问题的答案。通过对热门 VQA 数据集进行实验,我们证明了该系统具备解释性和进一步提高解释质量的内在能力。