本研究提出了一种更强健的 OCR 系统 PP-OCRv2,采用协作式互相学习、拷贝粘贴、深度神经网络、CTCLoss 等技巧来训练更好的文本探测器和识别器。实验表明,在相同推断成本下,PP-OCRv2 的精度比 PP-OCR 高 7%。
Sep, 2021
提出了一种名为 UPOCR 的简单而有效的通用模型,用于统一的像素级光学字符识别接口,通过图像转化和基于视觉 Transformer 的编码器 - 解码器结构统一了多样的 OCR 任务的范式,并引入可学习的任务提示使解码器具有任务感知性,在三个像素级 OCR 任务上的实验结果显示,该方法可以在一个统一的模型上同时实现三个任务的最先进性能,为未来关于通用 OCR 模型的研究提供了有价值的策略和见解。
Dec, 2023
本文提出了一种名为 TrOCR 的端到端文本识别方法,其中使用了预训练的图像 Transformer 和文本 Transformer 模型,不仅适用于印刷体和手写体,还适用于场景文本识别任务,并在准确率方面优于当前最先进的模型。
本文利用收集在 TextVQA 数据集的真实图像上的 900K 个文本单词,提出了任意形状的场景文本检测和识别系统 TextOCR,使用该系统训练的 OCR 模型 PixelM4C 在图像上进行场景文本推理,以达到新的 TextVQA 数据集上的最新性能水平。
May, 2021
提出了一种使用自然语言处理(NLP)工具的后处理方法,在手写或打印文本上先进行光学字符识别(OCR),然后使用 NLP 提高其准确性。
Jul, 2023
EffOCR 是一种开源 OCR 包,以字符或单词级图像检索问题的方式模拟 OCR,具有成本低、样本高效、易于部署和定制等优点,并在历史文件和日文文档的数字化上取得了成功。
Oct, 2023
MMOCR 是一个开源工具箱,提供了文本检测和识别的全面流水线,以及其下游任务,例如命名实体识别和关键信息提取。它实现了 14 种最先进的算法,大大超过了我们目前知道的所有现有开源 OCR 项目。
Aug, 2021
本篇综述研究了手写文字光学字符识别技术及其研究方向,通过人工智能和机器学习工具将手写和印刷文件转化为可分析、可编辑和可搜索的电子数据。共收集 142 篇相关研究,总结了最新的 OCR 技术和研究方向。
Jan, 2020
本文介绍了 Bengali.AI-BRACU-OCR(bbOCR):一种开源可扩展的文档光学字符识别系统,可将孟加拉语文档重构为结构化的可搜索的数字化格式,并提出了一种新颖的孟加拉语文本识别模型和两个合成数据集。全面的组件级和系统级评估结果表明,我们提出的解决方案优于当前最先进的孟加拉语 OCR 系统。
Aug, 2023
本文提出一种无分割 OCR 系统,该系统将深度学习方法、数据增强方法和合成训练数据结合起来,使用大型文本语料库和 2000 多种字体渲染合成训练数据,并通过几何失真和提出的 alpha-compositing 数据增强技术模拟复杂的自然环境,并采用 CNN 编码器以提取文本图像特征,检验了序列模型与卷积模型在模拟输入元素交互方面的能力。
Jun, 2019