PP-OCRv2: 超轻量 OCR 系统的绝招

Sep, 2021

PP-OCRv2: Bag of Tricks for Ultra Lightweight OCR System

Yuning Du, Chenxia Li, Ruoyu Guo, Cheng Cui, Weiwei Liu...

TL;DR本研究提出了一种更强健的 OCR 系统 PP-OCRv2，采用协作式互相学习、拷贝粘贴、深度神经网络、CTCLoss 等技巧来训练更好的文本探测器和识别器。实验表明，在相同推断成本下，PP-OCRv2 的精度比 PP-OCR 高 7%。

Abstract

Optical Character Recognition (ocr) systems have been widely used in various of application scenarios. Designing an ocr system is still a challenging task. In previous work, we proposed a practical ultra lightwei

ocr pp-ocrv2 text detector text recognizer mutual learning

发现论文，激发创造

PP-OCR：一款实用的超轻型 OCR 系统

本论文提出了 PP-OCR，一个高效的光学字符识别系统，其模型大小仅有 3.5M。该系统通过采用一系列优化策略来提高模型能力和减小模型大小。此外，该系统支持多语言识别，包括法语、韩语、日语和德语。

Sep, 2020

UPOCR：面向统一像素级 OCR 接口

提出了一种名为 UPOCR 的简单而有效的通用模型，用于统一的像素级光学字符识别接口，通过图像转化和基于视觉 Transformer 的编码器 - 解码器结构统一了多样的 OCR 任务的范式，并引入可学习的任务提示使解码器具有任务感知性，在三个像素级 OCR 任务上的实验结果显示，该方法可以在一个统一的模型上同时实现三个任务的最先进性能，为未来关于通用 OCR 模型的研究提供了有价值的策略和见解。

Dec, 2023

TrOCR: 基于 Transformer 的带预训练模型的光学字符识别

本文提出了一种名为 TrOCR 的端到端文本识别方法，其中使用了预训练的图像 Transformer 和文本 Transformer 模型，不仅适用于印刷体和手写体，还适用于场景文本识别任务，并在准确率方面优于当前最先进的模型。

Sep, 2021

深度学习技术实现高效无词典 OCR

本文提出一种无分割 OCR 系统，该系统将深度学习方法、数据增强方法和合成训练数据结合起来，使用大型文本语料库和 2000 多种字体渲染合成训练数据，并通过几何失真和提出的 alpha-compositing 数据增强技术模拟复杂的自然环境，并采用 CNN 编码器以提取文本图像特征，检验了序列模型与卷积模型在模拟输入元素交互方面的能力。

Jun, 2019

PP-LCNet: 一种轻量级的 CPU 卷积神经网络

本文介绍了一种基于 MKLDNN 加速策略的轻量级 CPU 网络 PP-LCNet，这种网络在多项任务上得到了改进。通过技术上的提升，PP-LCNet 在分类任务中的准确性大大优于之前的网络结构，并在计算机视觉的下游任务中表现出色。该研究使用的所有实验都是基于 PaddlePaddle 实现的，并提供相应的代码和预训练模型。

Sep, 2021

面向任意形状场景文本的大规模端到端推理

本文利用收集在 TextVQA 数据集的真实图像上的 900K 个文本单词，提出了任意形状的场景文本检测和识别系统 TextOCR，使用该系统训练的 OCR 模型 PixelM4C 在图像上进行场景文本推理，以达到新的 TextVQA 数据集上的最新性能水平。

May, 2021

TransDocs：基于光学字符识别和逐字翻译的翻译工具

本研究旨在提高 OCR 质量，通过使用 LSTM 技术集成 OCR 与深度学习模型进行文档翻译，并在英语到西班牙语翻译中显示了深度学习模型的比较研究，将终端到终端的性能用 BLEU-4 评分表达，旨在让研究人员和 OCR 应用于文档翻译的实践者感兴趣。

Apr, 2023

MMOCR: 一款全面的文字检测、识别和理解工具箱

MMOCR 是一个开源工具箱，提供了文本检测和识别的全面流水线，以及其下游任务，例如命名实体识别和关键信息提取。它实现了 14 种最先进的算法，大大超过了我们目前知道的所有现有开源 OCR 项目。

Aug, 2021

使用自定义词汇的 OCR 语言模型

这篇论文介绍了一种算法，能够在 OCR 系统中在运行时高效生成和附加特定领域的基于单词的语言模型，并且介绍了一种改进的 CTC 束搜索解码器，有效地使得假设能够基于可能的未来词汇完成保持竞争，从而显著降低了识别专业领域材料时的词错误率。

Aug, 2023

PP-YOLOv2: 实用物体检测器

通过综合评估现有的改进 refinement 的集合以改善 PP-YOLO 的性能，并为实现几乎不改变推理时间的效果，逐步进行消融研究以评估它们对最终模型性能的影响，通过结合多种有效的精炼手段，将 PP-YOLO 的性能从 45.9% mAP 提升到 49.5% mAP，而 PP-YOLOv2 的速度也达到了 106.5 FPS 的推理速度，由此超越了具有相同参数（即 YOLOv4-CSP，YOLOv5l）的现有目标检测器。

Apr, 2021