Jun, 2019

ICDAR 2019 场景文本视觉问答竞赛

TL;DR本文介绍了 ICDAR 2019 场景文本视觉问答比赛 (ST-VQA) 的最终结果和新数据集,包括 23038 张图像和 31791 个文本实例答案,涵盖广泛的情景。该竞赛共有 3 个递增的任务,需要理解场景中的文本并回答问题。提出了一种新的评估度量标准,旨在评估文本识别和图像理解两种关键能力。结果分析提供了 VQA 系统当前的能力洞见。此数据集标志着使用场景文本实现全面图像理解的更强大、更通用的模型的重要里程碑。