基于 Transformer 的历史文献手写识别
本文提出了一种名为 TrOCR 的端到端文本识别方法,其中使用了预训练的图像 Transformer 和文本 Transformer 模型,不仅适用于印刷体和手写体,还适用于场景文本识别任务,并在准确率方面优于当前最先进的模型。
Sep, 2021
拜仁学院的中世纪拉丁字典数字化工作,采用了端到端的流水线,包括定位、提取和转录手写词条等步骤。使用最新的图像分割模型准备初始数据集,并尝试不同的基于 Transformer 的模型进行实验,采用丰富的数据增强技术,最佳设置的字符错误率为 0.015,表现优于商业的谷歌云视觉模型并且更加稳定。
Aug, 2023
本研究主要解决将手写文本识别能力添加到大规模多语言 OCR 系统中的难点,包括数据获取,效率和集成等三个方面,通过使用在线手写数据集和基于神经网络的线识别模型等方式解决了这些问题,实现了 HTR 能力在 OCR 系统中的集成。
Apr, 2019
本文介绍了针对阿拉伯历史文献的光学字符识别技术的研究,提出了一种端到端文本识别方法 BEIT,并通过实验比较证明,该方法优于卷积神经网络的特征提取方法,达到了 4.46% 的识别准确率。
Aug, 2022
通过使用 Decoder-only Transformer 作为生成式语言模型,本研究提出了一种相对简单而有效的文本识别方法 DTrOCR,实验结果表明 DTrOCR 在识别印刷、手写和场景文本方面比当前的最先进方法表现出更好的性能。
Aug, 2023
本研究旨在通过对预训练基础 OCR 模型进行有效的参数微调,在各种下游任务中展示出卓越的性能。我们提出了一种基于预训练 OCR Transformer 的参数高效混合文本识别方法,即 DLoRA-TrOCR。该方法将 DoRA 嵌入图像编码器和 LoRA 嵌入文本解码器的内部结构,使得下游任务的参数微调更加高效。实验结果表明,与类似的参数调整方法相比,我们的模型 DLoRA-TrOCR 具有最少的参数,并且表现更好。它可以在包括混合手写、印刷和街景文本的复杂场景数据集上取得最先进的性能。
Apr, 2024
本文介绍了一种解读大量手写历史词典索引卡的方法,使用一种特别设计的手写文本识别解决方案,包括优化的检测模型,SPN、RCNN 和 CTC 三种卷积神经网络结构,以及基于约束的单词匹配算法。该方法在波兰 17th-18th 世纪历史词典的 2.8 万个索引卡上取得了 0.881 的准确率,为将来的 HTR 应用提供了可行的思路。
Mar, 2023
本研究旨在提高 OCR 质量,通过使用 LSTM 技术集成 OCR 与深度学习模型进行文档翻译,并在英语到西班牙语翻译中显示了深度学习模型的比较研究,将终端到终端的性能用 BLEU-4 评分表达,旨在让研究人员和 OCR 应用于文档翻译的实践者感兴趣。
Apr, 2023
通过对大型基准数据集和通过手写文本生成模型产生的合成数据集的研究,本文提出在大数据集上预训练手写文本识别模型,并在少量带有个人特点手写的小规模数据集上进行微调,以有效转录手稿。
May, 2023
教育文档的光学字符识别 (OCR) 模型 LOCR,通过在自回归过程中将位置引导集成到变压器架构中,有效地解决了复杂布局文档中的重复问题,提高了准确性,同时还提供了交互式 OCR 模式。
Mar, 2024