扩展 TrOCR 实现全页扫描收据图像的文本免定位 OCR

Dec, 2022

扩展 TrOCR 实现全页扫描收据图像的文本免定位 OCR

Extending TrOCR for Text Localization-Free OCR of Full-Page Scanned Receipt Images

Hongkuan Zhang, Edward Whittaker, Ikuo Kitagishi

TL;DR本研究提出了一个基于 Transformer 的 OCR 模型，用于提取收据图像中的字符序列，无需定位文本。该模型能够在不需要额外处理的情况下，将整个收据图像中的字符识别准确，并按阅读顺序排列。

Abstract

Digitization of scanned receipts aims to extract text from receipt images and save it into structured documents. This is usually split into two sub-tasks: text localization and optical character recognition (

ocr receipts document-level transformer-based model text localization

发现论文，激发创造

TrOCR: 基于 Transformer 的带预训练模型的光学字符识别

本文提出了一种名为 TrOCR 的端到端文本识别方法，其中使用了预训练的图像 Transformer 和文本 Transformer 模型，不仅适用于印刷体和手写体，还适用于场景文本识别任务，并在准确率方面优于当前最先进的模型。

Sep, 2021

DLoRA-TrOCR：基于 Transformer 的混合文本模式光学字符识别

本研究旨在通过对预训练基础 OCR 模型进行有效的参数微调，在各种下游任务中展示出卓越的性能。我们提出了一种基于预训练 OCR Transformer 的参数高效混合文本识别方法，即 DLoRA-TrOCR。该方法将 DoRA 嵌入图像编码器和 LoRA 嵌入文本解码器的内部结构，使得下游任务的参数微调更加高效。实验结果表明，与类似的参数调整方法相比，我们的模型 DLoRA-TrOCR 具有最少的参数，并且表现更好。它可以在包括混合手写、印刷和街景文本的复杂场景数据集上取得最先进的性能。

Apr, 2024

面向任意形状场景文本的大规模端到端推理

本文利用收集在 TextVQA 数据集的真实图像上的 900K 个文本单词，提出了任意形状的场景文本检测和识别系统 TextOCR，使用该系统训练的 OCR 模型 PixelM4C 在图像上进行场景文本推理，以达到新的 TextVQA 数据集上的最新性能水平。

May, 2021

ICDAR2019 扫描收据 OCR 和信息提取竞赛

本文介绍了通过 ICDAR 2019 比赛推广的扫描收据 OCR 和关键信息提取（SROIE）技术，它可以从扫描的收据中提取出关键信息并将其保存为结构化文档，以用于多种商业应用，但该领域中已发表的研究工作和进展非常少。

Mar, 2021

DTrOCR：解码器专用的 Transformer 用于光学字符识别

通过使用 Decoder-only Transformer 作为生成式语言模型，本研究提出了一种相对简单而有效的文本识别方法 DTrOCR，实验结果表明 DTrOCR 在识别印刷、手写和场景文本方面比当前的最先进方法表现出更好的性能。

Aug, 2023

TransDocs：基于光学字符识别和逐字翻译的翻译工具

本研究旨在提高 OCR 质量，通过使用 LSTM 技术集成 OCR 与深度学习模型进行文档翻译，并在英语到西班牙语翻译中显示了深度学习模型的比较研究，将终端到终端的性能用 BLEU-4 评分表达，旨在让研究人员和 OCR 应用于文档翻译的实践者感兴趣。

Apr, 2023

LOCR：基于位置引导的光学字符识别 Transformer

教育文档的光学字符识别 (OCR) 模型 LOCR，通过在自回归过程中将位置引导集成到变压器架构中，有效地解决了复杂布局文档中的重复问题，提高了准确性，同时还提供了交互式 OCR 模式。

Mar, 2024

深度学习技术实现高效无词典 OCR

本文提出一种无分割 OCR 系统，该系统将深度学习方法、数据增强方法和合成训练数据结合起来，使用大型文本语料库和 2000 多种字体渲染合成训练数据，并通过几何失真和提出的 alpha-compositing 数据增强技术模拟复杂的自然环境，并采用 CNN 编码器以提取文本图像特征，检验了序列模型与卷积模型在模拟输入元素交互方面的能力。

Jun, 2019

基于图像处理的场景文本检测与识别：Tesseract

本研究着重于自然图像中文字的检测和识别，使用基于卡车上的摄像机捕捉图像的方法，利用 Tesseract OCR 引擎来识别检测到的文字区域。研究中讨论了测试中出现的一个重要的假阳性情况并阐述了缓解该问题的策略。最终，该项目实现了超过 80％的正确字符识别率，并概述了开发阶段、主要挑战和一些有趣的发现。

Apr, 2020

利用印刻梵文的 OCR 进行后 OCR 文本校正

针对罗马化梵文文本数字化的后 OCR 文本纠正方法，使用其他罗马字母语言的 OCR 模型进行训练，通过合成数据生成来训练模型，并使用一种复制机制来提高字符识别率。实验结果表明，该模型在解决单调序列 - 序列任务方面比当前最先进的模型结果提高了 7.69%，能够有效地减少 OCR 产生的错误。此外，该模型的预测结果可被人类更快地理解和改进。

Sep, 2018