DLoRA-TrOCR：基于 Transformer 的混合文本模式光学字符识别

Apr, 2024

DLoRA-TrOCR：基于 Transformer 的混合文本模式光学字符识别

DLoRA-TrOCR: Mixed Text Mode Optical Character Recognition Based On Transformer

Da Chang, Yu Li

TL;DR本研究旨在通过对预训练基础 OCR 模型进行有效的参数微调，在各种下游任务中展示出卓越的性能。我们提出了一种基于预训练 OCR Transformer 的参数高效混合文本识别方法，即 DLoRA-TrOCR。该方法将 DoRA 嵌入图像编码器和 LoRA 嵌入文本解码器的内部结构，使得下游任务的参数微调更加高效。实验结果表明，与类似的参数调整方法相比，我们的模型 DLoRA-TrOCR 具有最少的参数，并且表现更好。它可以在包括混合手写、印刷和街景文本的复杂场景数据集上取得最先进的性能。

Abstract

With the continuous development of ocr technology and the expansion of application fields, text recognition in complex scenes has become a

ocr technology text recognition complex scenes pre-trained ocr transformer parameter-efficient hybrid text recognition

发现论文，激发创造

TrOCR: 基于 Transformer 的带预训练模型的光学字符识别

本文提出了一种名为 TrOCR 的端到端文本识别方法，其中使用了预训练的图像 Transformer 和文本 Transformer 模型，不仅适用于印刷体和手写体，还适用于场景文本识别任务，并在准确率方面优于当前最先进的模型。

Sep, 2021

DTrOCR：解码器专用的 Transformer 用于光学字符识别

通过使用 Decoder-only Transformer 作为生成式语言模型，本研究提出了一种相对简单而有效的文本识别方法 DTrOCR，实验结果表明 DTrOCR 在识别印刷、手写和场景文本方面比当前的最先进方法表现出更好的性能。

Aug, 2023

LOCR：基于位置引导的光学字符识别 Transformer

教育文档的光学字符识别 (OCR) 模型 LOCR，通过在自回归过程中将位置引导集成到变压器架构中，有效地解决了复杂布局文档中的重复问题，提高了准确性，同时还提供了交互式 OCR 模式。

Mar, 2024

TransDocs：基于光学字符识别和逐字翻译的翻译工具

本研究旨在提高 OCR 质量，通过使用 LSTM 技术集成 OCR 与深度学习模型进行文档翻译，并在英语到西班牙语翻译中显示了深度学习模型的比较研究，将终端到终端的性能用 BLEU-4 评分表达，旨在让研究人员和 OCR 应用于文档翻译的实践者感兴趣。

Apr, 2023

深度学习技术实现高效无词典 OCR

本文提出一种无分割 OCR 系统，该系统将深度学习方法、数据增强方法和合成训练数据结合起来，使用大型文本语料库和 2000 多种字体渲染合成训练数据，并通过几何失真和提出的 alpha-compositing 数据增强技术模拟复杂的自然环境，并采用 CNN 编码器以提取文本图像特征，检验了序列模型与卷积模型在模拟输入元素交互方面的能力。

Jun, 2019

扩展 TrOCR 实现全页扫描收据图像的文本免定位 OCR

本研究提出了一个基于 Transformer 的 OCR 模型，用于提取收据图像中的字符序列，无需定位文本。该模型能够在不需要额外处理的情况下，将整个收据图像中的字符识别准确，并按阅读顺序排列。

Dec, 2022

面向任意形状场景文本的大规模端到端推理

本文利用收集在 TextVQA 数据集的真实图像上的 900K 个文本单词，提出了任意形状的场景文本检测和识别系统 TextOCR，使用该系统训练的 OCR 模型 PixelM4C 在图像上进行场景文本推理，以达到新的 TextVQA 数据集上的最新性能水平。

May, 2021

一种基于 Transformer 模型的端到端 OCR 框架，用于识别具有变音符的大规模古典阿拉伯文多字体语料库的手写体 Arabic 识别

本文介绍了针对阿拉伯历史文献的光学字符识别技术的研究，提出了一种端到端文本识别方法 BEIT，并通过实验比较证明，该方法优于卷积神经网络的特征提取方法，达到了 4.46% 的识别准确率。

Aug, 2022

尼泊尔语和孟加拉语的光学文本识别：基于 Transformer 的方法

该研究使用编码器 - 解码器转换器针对 OCR 系统的研究和发展，以低资源语言（如孟加拉语和尼泊尔语）为例，通过对手写和打印的光学文本图像的集合进行评估，结果表明该技术与当前方法相符，并在孟加拉语和尼泊尔语的文本识别中取得了高精度，从而为东南亚地区的语言学研究打开了先机。

Apr, 2024

Levenshtein OCR

提出了一种基于 Vision-Language Transformer (VLT) 的新型场景文本识别器 (Levenshtein OCR)，利用交叉模态 Transformer 相互融合和逐步近似 ground truth, 通过模拟学习，实现并行解码，动态长度变化和良好的可解释性。实验证明，LevOCR 在标准基准测试中实现了最新水平，LevOCR 算法的有效性和优势得到了定量和定性分析的验证。

Sep, 2022