ACLMay, 2023

思考与观察的结合用于基于外部知识的视觉问答

TL;DR本文提出一种包含多模态编码器、文本编码器和答案解码器的新型框架,将跨模态空间约束到自然语言空间中,使得视觉特征直接保留在其中,并且从自然语言空间中获得更多的类型知识,实验证明其在多数情况下表现优异。