Jan, 2016

COCO-Text: 自然图像文本检测和识别数据集与基准

TL;DR本文介绍了 COCO-Text 数据集,该数据集基于 MS COCO 数据集,旨在推进自然图像的文本检测和识别。数据集中包含超过 173,000 个文本注释和超过 63,000 张图像,文本注释覆盖了文本的边界框、机器印刷文本和手写文本的分类、易读和难读文本的分类、文本的字体和可读文本的转录。本文还提供了数据集注释的准确性统计分析,并对三种最先进的光学字符识别方法在数据集上的表现进行了分析,结果表明文本检测和识别存在显著的不足,需要进一步研究。