Nov, 2022

面向推理感知的可解释视觉问答

TL;DR该研究提出了一种基于最先进的VQA框架的端到端解释生成模块,通过引入LSTM和Transformer解码器,生成人类可读的文本解释,同时保持SOTA VQA精度。