ACLMay, 2023
思考与观察的结合用于基于外部知识的视觉问答
Combo of Thinking and Observing for Outside-Knowledge VQA
Qingyi Si, Yuchen Mo, Zheng Lin, Huishan Ji, Weiping Wang
TL;DR本文提出一种包含多模态编码器、文本编码器和答案解码器的新型框架,将跨模态空间约束到自然语言空间中,使得视觉特征直接保留在其中,并且从自然语言空间中获得更多的类型知识,实验证明其在多数情况下表现优异。