Sep, 2023

通过推理监督实现可解释的视觉问答

TL;DR我们提出了一种新的视觉问答架构,通过常识推理作为监督信号来减轻模型在缺乏视觉基础的情况下的性能不足,并通过相似性损失将模型的视觉注意力引导到场景的重要元素,从而提高模型的视觉感知能力和性能。