May, 2024

乌尔都语自然场景文本检测、识别和视觉问答的数据集和基准

TL;DR通过提供 1000 多幅自然场景图像,该研究提出了一个新的多任务乌尔都语场景文本数据集,用于文本检测、识别和视觉问答任务,并解决了之前数据集在面对任意形状文本时的限制。该数据集通过引入额外的标注点,方便了对能够处理多样文本布局、复杂形状和非标准方向的方法进行开发和评估,帮助进一步推动乌尔都语场景文本理解方法的发展。