利用可用的光学字符识别引擎增强处理旧的库尔德出版物

Apr, 2024

利用可用的光学字符识别引擎增强处理旧的库尔德出版物

Making Old Kurdish Publications Processable by Augmenting Available Optical Character Recognition Engines

Blnd Yaseen, Hossein Hassani

TL;DR该研究致力于处理库尔德历史出版物，采用 Google 的免费 OCR 框架 Tesseract 5.0，使用自行创建的历史文档数据集进行训练，开发了一个提取文本的网页应用，同时也面临了公共数据集缺乏和字符、词之间不对齐的挑战。

Abstract

kurdish libraries have many historical publications that were printed back in the early days when printing devices were brought to Kurdistan. Having a good optical character recognition (OCR) to help process thes

kurdish libraries optical character recognition historical documents ocr systems dataset

发现论文，激发创造

阿拉伯光学字符识别的进展与挑战：综述

光学字符识别 (OCR) 是一个重要的过程，它涉及从扫描或打印图像中提取手写或印刷文字，将其转换为机器能够理解和处理的格式。本文旨在全面审查与阿拉伯光学字符识别 (OCR) 相关的当代应用、方法和挑战。通过对 OCR 过程中常用的技术进行彻底分析，着力寻找表现出更好结果的最有效方法。本文采用了细致的关键词搜索方法，对与阿拉伯 OCR 相关的文章进行全面分析，包括对前后引文的审查。除了展示最新的技术和方法，本文批判性地确定了阿拉伯 OCR 领域的研究空白，通过突出这些空白为未来的探索和发展指明了有前途的方向。本研究的结果为从事阿拉伯 OCR 的研究人员、实践者和利益相关者提供了宝贵的见解，最终促进了该领域的进步，并为阿拉伯语言的 OCR 系统的创建提供了更准确和高效的条件。

Dec, 2023

使用开源引擎的 19 世纪 Fraktur 字体的最新光学字符识别技术

本文介绍了一种使用混合模型的方法对 19 世纪 Fraktur 手写体进行 OCR，采用真实的数据训练混合模型的 OCR 引擎 Calamari 相较于 OCRopus、Tesseract 和 ABBYY 等其他引擎表现更佳，字符错误率平均降低超过 70％，平均字符错误率低于 1％。

Oct, 2018

优化文化打字文件字符识别图像处理算法

利用多目标问题公式和非支配排序遗传算法（NSGA-II）调整参数，本文评估了在光学字符识别（OCR）应用于打字文化遗产文件时图像处理方法和参数调整的影响，并发现通过数字表示类型来针对图像预处理算法进行参数化可以提高 OCR 的性能。特别是自适应阈值法、双边滤波器和开操作是剧院封面、信件和整体数据集中表现最好的算法，应在 OCR 之前应用以提高其性能。

Nov, 2023

针对濒危语言文本的 OCR 后校正

针对极度濒危语言中大多数没有用于构建自然语言处理模型的数据的情况，本文提出了一种从不可读的文本数据中提取文本的方法，具体而言，在三种极度濒危的语言中创建了一个基准数据集，并针对数据不足的 OCR 研究有效性做了系统分析，开发了一种针对数据不足的 OCR 后校正方法，平均可将识别错误率降低 34％。

Nov, 2020

基于 Transformer 的乌尔都文手写文字光学字符识别器

本文介绍了使用 Transformer 来识别复杂的乌尔都手写文本的方法。

Jun, 2022

Kwak'wala OCR 系统的用户中心评估

本文提出了 OCR 系统的人类中心评估方法，并以 Kwak'wala 语作为案例研究，证明利用 OCR 技术可以大幅减少手动文本转录所需的时间，尤其对濒临灭绝的语言社区和研究人员，对语言文献的记录和活化具有潜在的益处。

Feb, 2023

构建多元数字历史的高效 OCR

通过对 OCR 进行字符级图像检索建模，解决了现有体系结构在低资源情况下无法准确识别光学字符识别问题的不足，并为社区参与使数字历史更具代表性开辟了新的途径。

Apr, 2023

EfficientOCR: 高效数字化世界知识的可扩展开源软件包

EffOCR 是一种开源 OCR 包，以字符或单词级图像检索问题的方式模拟 OCR，具有成本低、样本高效、易于部署和定制等优点，并在历史文件和日文文档的数字化上取得了成功。

Oct, 2023

一种基于 Transformer 模型的端到端 OCR 框架，用于识别具有变音符的大规模古典阿拉伯文多字体语料库的手写体 Arabic 识别

本文介绍了针对阿拉伯历史文献的光学字符识别技术的研究，提出了一种端到端文本识别方法 BEIT，并通过实验比较证明，该方法优于卷积神经网络的特征提取方法，达到了 4.46% 的识别准确率。

Aug, 2022

bbOCR：一个用于孟加拉文档的开源多领域 OCR 处理流程

本文介绍了 Bengali.AI-BRACU-OCR（bbOCR）：一种开源可扩展的文档光学字符识别系统，可将孟加拉语文档重构为结构化的可搜索的数字化格式，并提出了一种新颖的孟加拉语文本识别模型和两个合成数据集。全面的组件级和系统级评估结果表明，我们提出的解决方案优于当前最先进的孟加拉语 OCR 系统。

Aug, 2023