Jan, 2020

视觉问答的强健性解释

TL;DR该研究提出了一个用于视觉问答(VQA)的生成鲁棒解释的方法,该模型通过提供视觉和文本解释来解释由 VQA 模型获得的答案,使用协作相关模块应对答案与文本解释不相关和视觉解释不正确的问题。在 VQA-X 数据集上的评估中,该算法具有更好的文本和视觉解释支持,对应视觉和文本解释攻击有更强的鲁棒性,且具有高度的相关性。