PP-OCRv2: 超轻量 OCR 系统的绝招
本论文提出了 PP-OCR,一个高效的光学字符识别系统,其模型大小仅有 3.5M。该系统通过采用一系列优化策略来提高模型能力和减小模型大小。此外,该系统支持多语言识别,包括法语、韩语、日语和德语。
Sep, 2020
提出了一种名为 UPOCR 的简单而有效的通用模型,用于统一的像素级光学字符识别接口,通过图像转化和基于视觉 Transformer 的编码器 - 解码器结构统一了多样的 OCR 任务的范式,并引入可学习的任务提示使解码器具有任务感知性,在三个像素级 OCR 任务上的实验结果显示,该方法可以在一个统一的模型上同时实现三个任务的最先进性能,为未来关于通用 OCR 模型的研究提供了有价值的策略和见解。
Dec, 2023
本文提出了一种名为 TrOCR 的端到端文本识别方法,其中使用了预训练的图像 Transformer 和文本 Transformer 模型,不仅适用于印刷体和手写体,还适用于场景文本识别任务,并在准确率方面优于当前最先进的模型。
Sep, 2021
本文提出一种无分割 OCR 系统,该系统将深度学习方法、数据增强方法和合成训练数据结合起来,使用大型文本语料库和 2000 多种字体渲染合成训练数据,并通过几何失真和提出的 alpha-compositing 数据增强技术模拟复杂的自然环境,并采用 CNN 编码器以提取文本图像特征,检验了序列模型与卷积模型在模拟输入元素交互方面的能力。
Jun, 2019
本文介绍了一种基于 MKLDNN 加速策略的轻量级 CPU 网络 PP-LCNet,这种网络在多项任务上得到了改进。通过技术上的提升,PP-LCNet 在分类任务中的准确性大大优于之前的网络结构,并在计算机视觉的下游任务中表现出色。该研究使用的所有实验都是基于 PaddlePaddle 实现的,并提供相应的代码和预训练模型。
Sep, 2021
本文利用收集在 TextVQA 数据集的真实图像上的 900K 个文本单词,提出了任意形状的场景文本检测和识别系统 TextOCR,使用该系统训练的 OCR 模型 PixelM4C 在图像上进行场景文本推理,以达到新的 TextVQA 数据集上的最新性能水平。
May, 2021
本研究旨在提高 OCR 质量,通过使用 LSTM 技术集成 OCR 与深度学习模型进行文档翻译,并在英语到西班牙语翻译中显示了深度学习模型的比较研究,将终端到终端的性能用 BLEU-4 评分表达,旨在让研究人员和 OCR 应用于文档翻译的实践者感兴趣。
Apr, 2023
MMOCR 是一个开源工具箱,提供了文本检测和识别的全面流水线,以及其下游任务,例如命名实体识别和关键信息提取。它实现了 14 种最先进的算法,大大超过了我们目前知道的所有现有开源 OCR 项目。
Aug, 2021
这篇论文介绍了一种算法,能够在 OCR 系统中在运行时高效生成和附加特定领域的基于单词的语言模型,并且介绍了一种改进的 CTC 束搜索解码器,有效地使得假设能够基于可能的未来词汇完成保持竞争,从而显著降低了识别专业领域材料时的词错误率。
Aug, 2023
通过综合评估现有的改进 refinement 的集合以改善 PP-YOLO 的性能,并为实现几乎不改变推理时间的效果,逐步进行消融研究以评估它们对最终模型性能的影响,通过结合多种有效的精炼手段,将 PP-YOLO 的性能从 45.9% mAP 提升到 49.5% mAP,而 PP-YOLOv2 的速度也达到了 106.5 FPS 的推理速度,由此超越了具有相同参数(即 YOLOv4-CSP,YOLOv5l)的现有目标检测器。
Apr, 2021