通用OCR理论：通过统一的端到端模型迈向OCR-2.0

Sep, 2024

通用OCR理论：通过统一的端到端模型迈向OCR-2.0

General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model

Haoran Wei, Chenglong Liu, Jinyue Chen, Jia Wang, Lingyu Kong...

TL;DR本研究针对传统OCR系统在智能处理光学字符方面的不足，提出了通用OCR理论及其模型GOT，旨在推动OCR-2.0的发展。GOT是一种包含580M参数的统一端到端模型，能够处理各种光学字符任务，并提供互动OCR功能和动态分辨率支持，实验结果证明其优越性。

Abstract

Traditional OCR systems (OCR-1.0) are increasingly unable to meet people's usage due to the growing demand for intelligent processing of man-made optical characters. In this paper, we collectively refer to all ar

发现论文，激发创造

深度学习技术实现高效无词典OCR

本文提出一种无分割OCR系统，该系统将深度学习方法、数据增强方法和合成训练数据结合起来，使用大型文本语料库和2000多种字体渲染合成训练数据，并通过几何失真和提出的alpha-compositing数据增强技术模拟复杂的自然环境，并采用CNN编码器以提取文本图像特征，检验了序列模型与卷积模型在模拟输入元素交互方面的能力。

Jun, 2019

手写光学字符识别（OCR）：一篇全面系统性文献综述（SLR）

本篇综述研究了手写文字光学字符识别技术及其研究方向，通过人工智能和机器学习工具将手写和印刷文件转化为可分析、可编辑和可搜索的电子数据。共收集142篇相关研究，总结了最新的OCR技术和研究方向。

Jan, 2020

PP-OCR：一款实用的超轻型OCR系统

本论文提出了PP-OCR，一个高效的光学字符识别系统，其模型大小仅有3.5M。该系统通过采用一系列优化策略来提高模型能力和减小模型大小。此外，该系统支持多语言识别，包括法语、韩语、日语和德语。

Sep, 2020

PP-OCRv2: 超轻量 OCR 系统的绝招

本研究提出了一种更强健的OCR系统PP-OCRv2，采用协作式互相学习、拷贝粘贴、深度神经网络、CTCLoss等技巧来训练更好的文本探测器和识别器。实验表明，在相同推断成本下，PP-OCRv2的精度比PP-OCR高7%。

Sep, 2021

一种基于Transformer模型的端到端OCR框架，用于识别具有变音符的大规模古典阿拉伯文多字体语料库的手写体Arabic识别

本文介绍了针对阿拉伯历史文献的光学字符识别技术的研究，提出了一种端到端文本识别方法BEIT，并通过实验比较证明，该方法优于卷积神经网络的特征提取方法，达到了4.46%的识别准确率。

Aug, 2022

DISGO: 场景文本OCR自动端到端评估

本文讨论了在自然场景中进行光学字符识别（OCR）所面临的挑战，这比在文档上进行OCR要困难，因为场景中内容狂野，图像背景各异。我们提出统一使用词误差率（WER）作为评估场景文本OCR的新度量，包括端到端（e2e）性能和各个系统组件的性能。尤其是对于端到端度量，我们将其命名为DISGO WER，因为它考虑了删除、插入、替换以及分组/排序错误。最后，我们提出利用超块的概念自动计算e2e OCR机器翻译的BLEU分数。小型SCUT公共测试集用于通过模块化的OCR系统展示WER的性能。

Aug, 2023

探索GPT-4V的OCR能力：定量和深入评估

GPT-4V综合评估了最近发布的大型多模态模型(GPT-4V(ision))在光学字符识别(OCR)方面的能力，发现其在识别和理解拉丁内容方面表现良好，但在多语言情境和复杂任务中存在困难。基于这些观察，我们深入探讨了专门的OCR模型的必要性，以及充分利用预训练的通用LMM模型如GPT-4V来进行OCR下游任务的策略。该研究为未来LMM在OCR领域的研究提供了重要参考。

Oct, 2023

UPOCR：面向统一像素级OCR接口

提出了一种名为UPOCR的简单而有效的通用模型，用于统一的像素级光学字符识别接口，通过图像转化和基于视觉Transformer的编码器-解码器结构统一了多样的OCR任务的范式，并引入可学习的任务提示使解码器具有任务感知性，在三个像素级OCR任务上的实验结果显示，该方法可以在一个统一的模型上同时实现三个任务的最先进性能，为未来关于通用OCR模型的研究提供了有价值的策略和见解。

Dec, 2023

OCR的标度律实证研究

通过对模型尺寸、数据量、计算和模型性能进行全面研究，在自然语言处理领域确定了它们之间的关系，然而在光学字符识别领域的标度律尚未被研究。本研究通过对模型性能、数据量和计算规模之间的关联进行详细研究，表明在控制其他影响因素的情况下，性能与模型尺寸以及训练数据量之间存在平滑的幂律关系。此外，研究人员构建了一个大规模数据集REBU-Syn，包括600万真实样本和1800万合成样本。基于他们的比例定律和新数据集，他们成功训练了一个场景文字识别模型，在6个常见的测试基准上取得了97.42%的平均准确率，达到了新的最先进水平。

Dec, 2023

LOCR：基于位置引导的光学字符识别Transformer

教育文档的光学字符识别 (OCR) 模型 LOCR，通过在自回归过程中将位置引导集成到变压器架构中，有效地解决了复杂布局文档中的重复问题，提高了准确性，同时还提供了交互式OCR模式。

Mar, 2024