Dec, 2023

IDPL-PFOD2:一个用于印刷波斯文光学字符识别的新的大规模数据集

TL;DR本文介绍了一种针对波斯文印刷文本识别的新型大规模数据集,该数据集包含 2003541 个图像并提供各种字体、样式和尺寸。通过使用基于 CRNN 和 Vision Transformer 的体系结构来评估数据集的有效性,CRNN-based 模型达到 78.49% 的基准准确率和 97.72% 的标准化编辑距离,而 Vision Transformer 架构达到 81.32% 的准确率和 98.74% 的标准化编辑距离。