PP-OCR：一款实用的超轻型 OCR 系统

Sep, 2020

PP-OCR：一款实用的超轻型 OCR 系统

PP-OCR: A Practical Ultra Lightweight OCR System

Yuning Du, Chenxia Li, Ruoyu Guo, Xiaoting Yin, Weiwei Liu...

TL;DR本论文提出了 PP-OCR，一个高效的光学字符识别系统，其模型大小仅有 3.5M。该系统通过采用一系列优化策略来提高模型能力和减小模型大小。此外，该系统支持多语言识别，包括法语、韩语、日语和德语。

Abstract

The optical character recognition (ocr) systems have been widely used in various of application scenarios, such as office automation (OA) systems, factory automations, online educations, map productions etc. Howe

optical character recognition ocr pp-ocr model size reduction multi-language recognition

发现论文，激发创造

PP-OCRv2: 超轻量 OCR 系统的绝招

本研究提出了一种更强健的 OCR 系统 PP-OCRv2，采用协作式互相学习、拷贝粘贴、深度神经网络、CTCLoss 等技巧来训练更好的文本探测器和识别器。实验表明，在相同推断成本下，PP-OCRv2 的精度比 PP-OCR 高 7%。

Sep, 2021

UPOCR：面向统一像素级 OCR 接口

提出了一种名为 UPOCR 的简单而有效的通用模型，用于统一的像素级光学字符识别接口，通过图像转化和基于视觉 Transformer 的编码器 - 解码器结构统一了多样的 OCR 任务的范式，并引入可学习的任务提示使解码器具有任务感知性，在三个像素级 OCR 任务上的实验结果显示，该方法可以在一个统一的模型上同时实现三个任务的最先进性能，为未来关于通用 OCR 模型的研究提供了有价值的策略和见解。

Dec, 2023

TrOCR: 基于 Transformer 的带预训练模型的光学字符识别

本文提出了一种名为 TrOCR 的端到端文本识别方法，其中使用了预训练的图像 Transformer 和文本 Transformer 模型，不仅适用于印刷体和手写体，还适用于场景文本识别任务，并在准确率方面优于当前最先进的模型。

Sep, 2021

面向任意形状场景文本的大规模端到端推理

本文利用收集在 TextVQA 数据集的真实图像上的 900K 个文本单词，提出了任意形状的场景文本检测和识别系统 TextOCR，使用该系统训练的 OCR 模型 PixelM4C 在图像上进行场景文本推理，以达到新的 TextVQA 数据集上的最新性能水平。

May, 2021

通过自然语言处理进行后处理以改善光学字符识别的新型流程

提出了一种使用自然语言处理（NLP）工具的后处理方法，在手写或打印文本上先进行光学字符识别（OCR），然后使用 NLP 提高其准确性。

Jul, 2023

EfficientOCR: 高效数字化世界知识的可扩展开源软件包

EffOCR 是一种开源 OCR 包，以字符或单词级图像检索问题的方式模拟 OCR，具有成本低、样本高效、易于部署和定制等优点，并在历史文件和日文文档的数字化上取得了成功。

Oct, 2023

MMOCR: 一款全面的文字检测、识别和理解工具箱

MMOCR 是一个开源工具箱，提供了文本检测和识别的全面流水线，以及其下游任务，例如命名实体识别和关键信息提取。它实现了 14 种最先进的算法，大大超过了我们目前知道的所有现有开源 OCR 项目。

Aug, 2021

手写光学字符识别（OCR）：一篇全面系统性文献综述（SLR）

本篇综述研究了手写文字光学字符识别技术及其研究方向，通过人工智能和机器学习工具将手写和印刷文件转化为可分析、可编辑和可搜索的电子数据。共收集 142 篇相关研究，总结了最新的 OCR 技术和研究方向。

Jan, 2020

bbOCR：一个用于孟加拉文档的开源多领域 OCR 处理流程

本文介绍了 Bengali.AI-BRACU-OCR（bbOCR）：一种开源可扩展的文档光学字符识别系统，可将孟加拉语文档重构为结构化的可搜索的数字化格式，并提出了一种新颖的孟加拉语文本识别模型和两个合成数据集。全面的组件级和系统级评估结果表明，我们提出的解决方案优于当前最先进的孟加拉语 OCR 系统。

Aug, 2023

深度学习技术实现高效无词典 OCR

本文提出一种无分割 OCR 系统，该系统将深度学习方法、数据增强方法和合成训练数据结合起来，使用大型文本语料库和 2000 多种字体渲染合成训练数据，并通过几何失真和提出的 alpha-compositing 数据增强技术模拟复杂的自然环境，并采用 CNN 编码器以提取文本图像特征，检验了序列模型与卷积模型在模拟输入元素交互方面的能力。

Jun, 2019