IDPL-PFOD2：一个用于印刷波斯文光学字符识别的新的大规模数据集

Dec, 2023

IDPL-PFOD2：一个用于印刷波斯文光学字符识别的新的大规模数据集

IDPL-PFOD2: A New Large-Scale Dataset for Printed Farsi Optical Character Recognition

Fatemeh Asadi-zeydabadi, Ali Afkari-Fahandari, Amin Faraji, Elham Shabaninia, Hossein Nezamabadi-pour

TL;DR本文介绍了一种针对波斯文印刷文本识别的新型大规模数据集，该数据集包含 2003541 个图像并提供各种字体、样式和尺寸。通过使用基于 CRNN 和 Vision Transformer 的体系结构来评估数据集的有效性，CRNN-based 模型达到 78.49% 的基准准确率和 97.72% 的标准化编辑距离，而 Vision Transformer 架构达到 81.32% 的准确率和 98.74% 的标准化编辑距离。

Abstract

optical character recognition is a technique that converts document images into searchable and editable text, making it a valuable tool for processing scanned documents. While the Farsi language stands as a prominent and official language in Asia, efforts to develop efficient methods f

optical character recognition farsi printed text dataset crnn-based model vision transformer architecture

发现论文，激发创造

Persis: 使用卷积神经网络的波斯字体识别流程

本文介绍了公开可用的第一个波斯字体识别数据库，并使用卷积神经网络解决了这个问题。结果表明，提出的流程在新的数据集上获得了 78.0% 的前 1 精度，在 IDPL-PFOD 数据集上为 89.1%，在 KAFD 数据集上为 94.5%。此外，对于我们的数据集的一个样本，整个流程在 CPU 上平均耗时 0.54 秒，在 GPU 上为 0.017 秒。我们得出结论，CNN 方法可以用于识别波斯字体，无需额外的预处理步骤，如特征提取、二值化、标准化等。

Oct, 2023

一种基于 Transformer 模型的端到端 OCR 框架，用于识别具有变音符的大规模古典阿拉伯文多字体语料库的手写体 Arabic 识别

本文介绍了针对阿拉伯历史文献的光学字符识别技术的研究，提出了一种端到端文本识别方法 BEIT，并通过实验比较证明，该方法优于卷积神经网络的特征提取方法，达到了 4.46% 的识别准确率。

Aug, 2022

自然场景下的中文识别

介绍一个街景图中的大规模中文文本数据集，该数据集包含超过 30,000 张街景图中的大约 1 百万个中文字符，同时提供基准结果使用 AlexNet，OverFeat，Google Inception 和 ResNet 进行字符识别，使用 YOLOv2 进行字符检测。

Feb, 2018

使用算法生成的错拼词在多对多深度神经网络上检测波斯语排版错误类型

本研究针对波斯语（Persian）的排版错误类型检测展开研究，构建了一套公开数据集 FarsTypo，使用神经网络结合 Word 和 Character Embeddings 进行分类，获得了 97.62% 的准确率，98.83% 的精确度，并在速度方面表现优异。

May, 2023

UTRNet: 印刷文件中的高分辨率乌尔都文本识别

本文提出了一种新方法来解决印地语文本识别的挑战，提出了 UTRNet 结构，并介绍了两个大规模数据集 UTRSet-Real 和 UTRSet-Synth 以及 UrduDoc 数据集，最终实现了与其他 OCR 技术相比较优异的效果。

Jun, 2023

利用可用的光学字符识别引擎增强处理旧的库尔德出版物

该研究致力于处理库尔德历史出版物，采用 Google 的免费 OCR 框架 Tesseract 5.0，使用自行创建的历史文档数据集进行训练，开发了一个提取文本的网页应用，同时也面临了公共数据集缺乏和字符、词之间不对齐的挑战。

Apr, 2024

尼泊尔语和孟加拉语的光学文本识别：基于 Transformer 的方法

该研究使用编码器 - 解码器转换器针对 OCR 系统的研究和发展，以低资源语言（如孟加拉语和尼泊尔语）为例，通过对手写和打印的光学文本图像的集合进行评估，结果表明该技术与当前方法相符，并在孟加拉语和尼泊尔语的文本识别中取得了高精度，从而为东南亚地区的语言学研究打开了先机。

Apr, 2024

DDI-100: 文本检测和识别数据集

本文提出了扭曲文档图像数据集（DDI-100），该数据集是基于 7000 张真实唯一的文档页面的合成数据集，包含超过 100000 个增强图像，标注信息包括文本和邮戳掩模、文本和字符边界框等，验证结果表明该数据集在文档分析等多种领域有很好的实用价值。

Dec, 2019

基于 Transformer 的乌尔都文手写文字光学字符识别器

本文介绍了使用 Transformer 来识别复杂的乌尔都手写文本的方法。

Jun, 2022

使用卷积神经网络的手写体识别

通过使用 NIST 数据集对卷积神经网络进行训练并提取图像特征，成功实现了 90.54% 的识别准确率和 2.53% 的损失，该技术可以对手写和印刷文本进行 OCR 和 ICR 的处理。

Jul, 2023