基于 Transformer 的乌尔都文手写文字光学字符识别器
本文介绍了针对阿拉伯历史文献的光学字符识别技术的研究,提出了一种端到端文本识别方法 BEIT,并通过实验比较证明,该方法优于卷积神经网络的特征提取方法,达到了 4.46% 的识别准确率。
Aug, 2022
该研究使用编码器 - 解码器转换器针对 OCR 系统的研究和发展,以低资源语言(如孟加拉语和尼泊尔语)为例,通过对手写和打印的光学文本图像的集合进行评估,结果表明该技术与当前方法相符,并在孟加拉语和尼泊尔语的文本识别中取得了高精度,从而为东南亚地区的语言学研究打开了先机。
Apr, 2024
本文提出了一种名为 TrOCR 的端到端文本识别方法,其中使用了预训练的图像 Transformer 和文本 Transformer 模型,不仅适用于印刷体和手写体,还适用于场景文本识别任务,并在准确率方面优于当前最先进的模型。
Sep, 2021
手写识别是模式识别和机器学习领域中具有挑战性和关键问题,其应用领域广泛。本文专注于离线阿拉伯手写文本识别问题,并引入两种替代架构,即 Transformer Transducer 和标准序列到序列 Transformer,并比较它们在准确性和速度方面的性能表现,结果显示我们的方法在识别离线阿拉伯手写文本方面优于当前最先进的方法。
Jul, 2023
光学字符识别 (OCR) 是一个重要的过程,它涉及从扫描或打印图像中提取手写或印刷文字,将其转换为机器能够理解和处理的格式。本文旨在全面审查与阿拉伯光学字符识别 (OCR) 相关的当代应用、方法和挑战。通过对 OCR 过程中常用的技术进行彻底分析,着力寻找表现出更好结果的最有效方法。本文采用了细致的关键词搜索方法,对与阿拉伯 OCR 相关的文章进行全面分析,包括对前后引文的审查。除了展示最新的技术和方法,本文批判性地确定了阿拉伯 OCR 领域的研究空白,通过突出这些空白为未来的探索和发展指明了有前途的方向。本研究的结果为从事阿拉伯 OCR 的研究人员、实践者和利益相关者提供了宝贵的见解,最终促进了该领域的进步,并为阿拉伯语言的 OCR 系统的创建提供了更准确和高效的条件。
Dec, 2023
本研究主要解决将手写文本识别能力添加到大规模多语言 OCR 系统中的难点,包括数据获取,效率和集成等三个方面,通过使用在线手写数据集和基于神经网络的线识别模型等方式解决了这些问题,实现了 HTR 能力在 OCR 系统中的集成。
Apr, 2019
本篇综述研究了手写文字光学字符识别技术及其研究方向,通过人工智能和机器学习工具将手写和印刷文件转化为可分析、可编辑和可搜索的电子数据。共收集 142 篇相关研究,总结了最新的 OCR 技术和研究方向。
Jan, 2020
该研究致力于处理库尔德历史出版物,采用 Google 的免费 OCR 框架 Tesseract 5.0,使用自行创建的历史文档数据集进行训练,开发了一个提取文本的网页应用,同时也面临了公共数据集缺乏和字符、词之间不对齐的挑战。
Apr, 2024
本文提出了一种新方法来解决印地语文本识别的挑战,提出了 UTRNet 结构,并介绍了两个大规模数据集 UTRSet-Real 和 UTRSet-Synth 以及 UrduDoc 数据集,最终实现了与其他 OCR 技术相比较优异的效果。
Jun, 2023
本文开发了一个带有乌尔都文本的情景图像数据集,并提出使用机器学习方法从这些图像中检测乌尔都文本的方法,包括通过 MSER 方法提取文本区域、利用 SVM 分类器筛选非文本区域、HoG 特征训练第二个 SVM 分类器来进一步提高文本区域检测的性能。最终目的是为乌尔都文本检测研究提供数据资源,并突出该领域的挑战和研究空白。
Sep, 2022