MMApr, 2021

初探:通过视觉和文本解释实现可解释的 TextVQA 模型

TL;DR该论文提出了一种可解释的深度学习模型 - MTXNet,着重于图像中的文本的多模态解释生成,并使用包含视觉信息和多种文本解释的新颖数据集 TextVQA-X 进行训练和评估,显示出该多模态解释与人类解释一致,有助于为模型的决策提供有用的见解。该模型解释效果的得分在 CIDEr 方面优于单模态模型至多 7%,在 IoU 方面优于单模态模型至多 2%。