通用OCR理论:通过统一的端到端模型迈向OCR-2.0
本文提出一种无分割OCR系统,该系统将深度学习方法、数据增强方法和合成训练数据结合起来,使用大型文本语料库和2000多种字体渲染合成训练数据,并通过几何失真和提出的alpha-compositing数据增强技术模拟复杂的自然环境,并采用CNN编码器以提取文本图像特征,检验了序列模型与卷积模型在模拟输入元素交互方面的能力。
Jun, 2019
本篇综述研究了手写文字光学字符识别技术及其研究方向,通过人工智能和机器学习工具将手写和印刷文件转化为可分析、可编辑和可搜索的电子数据。共收集142篇相关研究,总结了最新的OCR技术和研究方向。
Jan, 2020
本论文提出了PP-OCR,一个高效的光学字符识别系统,其模型大小仅有3.5M。该系统通过采用一系列优化策略来提高模型能力和减小模型大小。此外,该系统支持多语言识别,包括法语、韩语、日语和德语。
Sep, 2020
本研究提出了一种更强健的OCR系统PP-OCRv2,采用协作式互相学习、拷贝粘贴、深度神经网络、CTCLoss等技巧来训练更好的文本探测器和识别器。实验表明,在相同推断成本下,PP-OCRv2的精度比PP-OCR高7%。
Sep, 2021
本文介绍了针对阿拉伯历史文献的光学字符识别技术的研究,提出了一种端到端文本识别方法BEIT,并通过实验比较证明,该方法优于卷积神经网络的特征提取方法,达到了4.46%的识别准确率。
Aug, 2022
本文讨论了在自然场景中进行光学字符识别(OCR)所面临的挑战,这比在文档上进行OCR要困难,因为场景中内容狂野,图像背景各异。我们提出统一使用词误差率(WER)作为评估场景文本OCR的新度量,包括端到端(e2e)性能和各个系统组件的性能。尤其是对于端到端度量,我们将其命名为DISGO WER,因为它考虑了删除、插入、替换以及分组/排序错误。最后,我们提出利用超块的概念自动计算e2e OCR机器翻译的BLEU分数。小型SCUT公共测试集用于通过模块化的OCR系统展示WER的性能。
Aug, 2023
GPT-4V综合评估了最近发布的大型多模态模型(GPT-4V(ision))在光学字符识别(OCR)方面的能力,发现其在识别和理解拉丁内容方面表现良好,但在多语言情境和复杂任务中存在困难。基于这些观察,我们深入探讨了专门的OCR模型的必要性,以及充分利用预训练的通用LMM模型如GPT-4V来进行OCR下游任务的策略。该研究为未来LMM在OCR领域的研究提供了重要参考。
Oct, 2023
提出了一种名为UPOCR的简单而有效的通用模型,用于统一的像素级光学字符识别接口,通过图像转化和基于视觉Transformer的编码器-解码器结构统一了多样的OCR任务的范式,并引入可学习的任务提示使解码器具有任务感知性,在三个像素级OCR任务上的实验结果显示,该方法可以在一个统一的模型上同时实现三个任务的最先进性能,为未来关于通用OCR模型的研究提供了有价值的策略和见解。
Dec, 2023
通过对模型尺寸、数据量、计算和模型性能进行全面研究,在自然语言处理领域确定了它们之间的关系,然而在光学字符识别领域的标度律尚未被研究。本研究通过对模型性能、数据量和计算规模之间的关联进行详细研究,表明在控制其他影响因素的情况下,性能与模型尺寸以及训练数据量之间存在平滑的幂律关系。此外,研究人员构建了一个大规模数据集REBU-Syn,包括600万真实样本和1800万合成样本。基于他们的比例定律和新数据集,他们成功训练了一个场景文字识别模型,在6个常见的测试基准上取得了97.42%的平均准确率,达到了新的最先进水平。
Dec, 2023
教育文档的光学字符识别 (OCR) 模型 LOCR,通过在自回归过程中将位置引导集成到变压器架构中,有效地解决了复杂布局文档中的重复问题,提高了准确性,同时还提供了交互式OCR模式。
Mar, 2024