CVPRAug, 2023

提升文本 - 视觉问答中的文本表达

TL;DR通过结合 TextVQA 和 VQA 数据集,我们提出了一种方法,在文本和图像特征之间增加了理解和关联性,从而提高了对问题的回答准确性。