Dec, 2023
IDPL-PFOD2:一个用于印刷波斯文光学字符识别的新的大规模数据集
IDPL-PFOD2: A New Large-Scale Dataset for Printed Farsi Optical Character Recognition
Fatemeh Asadi-zeydabadi, Ali Afkari-Fahandari, Amin Faraji, Elham Shabaninia, Hossein Nezamabadi-pour
TL;DR本文介绍了一种针对波斯文印刷文本识别的新型大规模数据集,该数据集包含 2003541 个图像并提供各种字体、样式和尺寸。通过使用基于 CRNN 和 Vision Transformer 的体系结构来评估数据集的有效性,CRNN-based 模型达到 78.49% 的基准准确率和 97.72% 的标准化编辑距离,而 Vision Transformer 架构达到 81.32% 的准确率和 98.74% 的标准化编辑距离。