CVPRApr, 2019

面向能够阅读的 VQA 模型

TL;DR我们研究了盲人用户在看不到图片的情况下经常关注的图像内容,即图片中的文本,并介绍了一种名为 LoRRA 的新模型用于解决这个问题,同时提出了一个名为 TextVQA 的数据集来评估和改进模型表现。