古老但数字化：通过创建KHAMIS数据集开发东叙利亚文字的手写光学字符识别

Aug, 2024

古老但数字化：通过创建KHAMIS数据集开发东叙利亚文字的手写光学字符识别

Ancient but Digitized: Developing Handwritten Optical Character Recognition for East Syriac Script Through Creating KHAMIS Dataset

HTML

PDF

Ameer Majeed, Hossein Hassani

TL;DR本研究解决了叙利亚语作为一种古老且濒危语言在数字化过程中的不足。通过创建KHAMIS数据集，研究者对手写叙利亚文本进行了光学字符识别模型的开发，实现了相较于Tesseract默认模型的显著性能提升，开辟了更多数字服务的可能性。该模型的字符错误率达到了1.097-1.610%，为叙利亚文的数字化提供了重要工具。

Abstract

Many languages have vast amounts of handwritten texts, such as ancient scripts about folktale stories and historical narratives or contemporary documents and letters. Digitization of those texts has various applications, such as daily tasks, cultural studies, and historical research. Syriac is an ancient, endangered, and low-resourced language that has not r

发现论文，激发创造

利用印刻梵文的OCR进行后OCR文本校正

针对罗马化梵文文本数字化的后OCR文本纠正方法，使用其他罗马字母语言的OCR模型进行训练，通过合成数据生成来训练模型，并使用一种复制机制来提高字符识别率。实验结果表明，该模型在解决单调序列-序列任务方面比当前最先进的模型结果提高了7.69%，能够有效地减少OCR产生的错误。此外，该模型的预测结果可被人类更快地理解和改进。

Sep, 2018

使用开源引擎的19世纪Fraktur字体的最新光学字符识别技术

本文介绍了一种使用混合模型的方法对19世纪Fraktur手写体进行OCR，采用真实的数据训练混合模型的OCR引擎Calamari相较于OCRopus、Tesseract和ABBYY等其他引擎表现更佳，字符错误率平均降低超过70％，平均字符错误率低于1％。

Oct, 2018

使用深度学习恢复古代文本：以希腊铭文为案例研究

这篇论文介绍了 Pythia，它是第一个使用深度神经网络从损坏的文本中恢复缺失字符的古代文本修复模型，在 PHI-ML 上实现了 30.1% 的字符错误率并在古代文字修复领域达到了最新水平。

Oct, 2019

梵文OCR后文本校正的基准和数据集

在这项工作中，我们发布了一个后OCR文本校正数据集，其中包含来自30本不同书籍的约218,000个句子，共1.5百万个单词，涵盖了天文学、医学和数学等多个领域，其中一些可追溯到18个世纪。我们还发布了基于预训练Seq2Seq语言模型的多个强基线作为任务的基准。通过字节级标记和音素编码（Byt5+SLP1）的最佳模型，我们在单词和字符错误率方面取得了23％的增加。

Nov, 2022

Kwak'wala OCR系统的用户中心评估

本文提出了OCR系统的人类中心评估方法，并以Kwak'wala语作为案例研究，证明利用OCR技术可以大幅减少手动文本转录所需的时间，尤其对濒临灭绝的语言社区和研究人员，对语言文献的记录和活化具有潜在的益处。

Feb, 2023

使用Vision Transformers量化字符相似度

使用大量自我监督训练的视觉变换器（ViT），通过对数字化字体进行增强，开发了一种可扩展的方法来测量OCR文档的字符替换成本。使用字符表示之间的余弦距离作为编辑距离匹配算法中的替换成本，与其他广泛使用的字符串匹配方法相比，可以显著提高记录链接的精度，因为OCR错误往往是同形异义字的。通过创建古代汉字的同形异义字集合，可以捕捉古代社会不同抽象概念的关系。

May, 2023

深度亚拉姆语：实现合成数据范式，在铭文学中开启机器学习

我们的研究通过合成数据的方法，为古代亚述文字符号生成了大规模的数据集，以此训练人工神经网络以提高掌握这些古代碑文的能力。通过验证实验，我们验证了该模型在处理多样的真实场景中的能力，并证明了我们合成数据方法的可行性，避免了对稀缺的训练数据的依赖，从而提高了对受损碑文的解读准确性和对历史资源的知识提取。

Oct, 2023

阿拉伯光学字符识别的进展与挑战：综述

光学字符识别 (OCR) 是一个重要的过程，它涉及从扫描或打印图像中提取手写或印刷文字，将其转换为机器能够理解和处理的格式。本文旨在全面审查与阿拉伯光学字符识别 (OCR) 相关的当代应用、方法和挑战。通过对OCR过程中常用的技术进行彻底分析，着力寻找表现出更好结果的最有效方法。本文采用了细致的关键词搜索方法，对与阿拉伯OCR相关的文章进行全面分析，包括对前后引文的审查。除了展示最新的技术和方法，本文批判性地确定了阿拉伯OCR领域的研究空白，通过突出这些空白为未来的探索和发展指明了有前途的方向。本研究的结果为从事阿拉伯OCR的研究人员、实践者和利益相关者提供了宝贵的见解，最终促进了该领域的进步，并为阿拉伯语言的OCR系统的创建提供了更准确和高效的条件。

Dec, 2023

利用可用的光学字符识别引擎增强处理旧的库尔德出版物

该研究致力于处理库尔德历史出版物，采用Google的免费OCR框架Tesseract 5.0，使用自行创建的历史文档数据集进行训练，开发了一个提取文本的网页应用，同时也面临了公共数据集缺乏和字符、词之间不对齐的挑战。

Apr, 2024

HABD：侯马联盟书古代手写字符识别数据库

本研究针对侯马联盟书中因古老来源和墨水侵蚀导致的字符识别困难问题，提出了一种新的古代手写字符识别数据库，并基于深度学习架构创建了创新性基准。研究结果包括26,732个字符样本和327种不同类型的古代字符，有助于推动对侯马联盟书及其它古代字符的研究，促进对古文化和历史的理解及人类文化遗产的保护与传承。

Aug, 2024