Jun, 2019

ICDAR 2019 场景文本视觉问答竞赛

TL;DR本文介绍了ICDAR 2019场景文本视觉问答比赛(ST-VQA)的最终结果和新数据集,包括23038张图像和31791个文本实例答案,涵盖广泛的情景。该竞赛共有3个递增的任务,需要理解场景中的文本并回答问题。提出了一种新的评估度量标准,旨在评估文本识别和图像理解两种关键能力。结果分析提供了VQA系统当前的能力洞见。此数据集标志着使用场景文本实现全面图像理解的更强大、更通用的模型的重要里程碑。