Jun, 2024

Muharaf:手写阿拉伯文连续文本识别的手稿数据集

TL;DR我们提供了一个由历史手写页面图像组成的机器学习数据集,每个文档图像配有文字行的空间多边形坐标以及基本页面元素,可用于提升手写文本识别的技术水平。该数据集包含不同的手写风格和各种文档类型,并介绍了数据获取过程、数据集特征和统计信息,同时提供了使用此数据进行训练的卷积神经网络的初步基线结果。