Nov, 2022

面向推理感知的可解释视觉问答

TL;DR该研究提出了一种基于最先进的 VQA 框架的端到端解释生成模块,通过引入 LSTM 和 Transformer 解码器,生成人类可读的文本解释,同时保持 SOTA VQA 精度。