Levenshtein OCR

ECCVSep, 2022

Cheng Da, Peng Wang, Cong Yao

TL;DR提出了一种基于 Vision-Language Transformer (VLT) 的新型场景文本识别器 (Levenshtein OCR)，利用交叉模态 Transformer 相互融合和逐步近似 ground truth, 通过模拟学习，实现并行解码，动态长度变化和良好的可解释性。实验证明，LevOCR 在标准基准测试中实现了最新水平，LevOCR 算法的有效性和优势得到了定量和定性分析的验证。

Abstract

A novel scene text recognizer based on vision-language transformer (VLT) is presented. Inspired by Levenshtein Transformer in the area of NLP, the proposed method (named levenshtein ocr, and LevOCR for short) exp

scene text recognition levenshtein ocr vision-language transformer cross-modal transformer imitation learning

发现论文，激发创造

TransDocs：基于光学字符识别和逐字翻译的翻译工具

本研究旨在提高 OCR 质量，通过使用 LSTM 技术集成 OCR 与深度学习模型进行文档翻译，并在英语到西班牙语翻译中显示了深度学习模型的比较研究，将终端到终端的性能用 BLEU-4 评分表达，旨在让研究人员和 OCR 应用于文档翻译的实践者感兴趣。

Apr, 2023

面向任意形状场景文本的大规模端到端推理

本文利用收集在 TextVQA 数据集的真实图像上的 900K 个文本单词，提出了任意形状的场景文本检测和识别系统 TextOCR，使用该系统训练的 OCR 模型 PixelM4C 在图像上进行场景文本推理，以达到新的 TextVQA 数据集上的最新性能水平。

May, 2021

从二到一：一种具有视觉语言建模网络的新型场景文本识别器

本文提出一种名为 VisionLAN 的可提升文字识别速度与精度的模型，结合视觉和语言信息的 Visual Language Modeling，以直接赋予形象模型带有语言能力，从而在训练阶段引导视觉模型利用视觉文本特征以及上下文信息的语言能力进行字符特征判断，绕过视觉噪声等干扰因素。本文中的 Occlusion Scene Text 数据集通过缺失部分字符信息的数据，进一步验证了我们的模型在复杂环境下的有效性。

Aug, 2021

TrOCR: 基于 Transformer 的带预训练模型的光学字符识别

本文提出了一种名为 TrOCR 的端到端文本识别方法，其中使用了预训练的图像 Transformer 和文本 Transformer 模型，不仅适用于印刷体和手写体，还适用于场景文本识别任务，并在准确率方面优于当前最先进的模型。

Sep, 2021

使用单个视觉模型进行场景文本识别

本研究提出一种基于补丁式图像记号化框架的单一视觉模型，用于场景文本识别，其通过组成部分级别的混合、合并和 / 或组合，实现全局和局部混合块，以感知字符之间和字符内部的模式，从而通过简单的线性预测识别字符。实验结果表明，在英语和中文场景文本识别任务上，SVTR-L（大型）实现了高竞争准确性，在中文上大幅优于现有的方法，在代码实现方面表现出更快的速度。

Apr, 2022

VLTinT: 视觉语言双重 Transformer，用于连贯的视频段落字幕生成

本文提出了一种新的视觉 - 语言特征模型 (VL feature)，通过 Autoregressive Transformer-in-Transformer (TinT) 模型来捕获视频中的语义，同时提出了一种 VL 对比损失 (VL contrastive loss) 来保证嵌入特征与字幕语义匹配，实验证明该方法优于现有的最优方法。

Nov, 2022

LaTr: 面向场景文本 VQA 的布局感知 Transformer

提出了一种新的多模态体系结构 Layout-Aware Transformer（LaTr）来进行场景文本视觉问答（STVQA），并提出了一种单一目标的预训练方案，该方案仅需要文本和空间线索。 LaTr 通过将语言和布局信息联系起来，可以学习各种空间线索，从而提高了对 OCR 错误的鲁棒性，并在多个数据集上优于最先进的 STVQA 方法。

Dec, 2021

深度学习技术实现高效无词典 OCR

本文提出一种无分割 OCR 系统，该系统将深度学习方法、数据增强方法和合成训练数据结合起来，使用大型文本语料库和 2000 多种字体渲染合成训练数据，并通过几何失真和提出的 alpha-compositing 数据增强技术模拟复杂的自然环境，并采用 CNN 编码器以提取文本图像特征，检验了序列模型与卷积模型在模拟输入元素交互方面的能力。

Jun, 2019

DLoRA-TrOCR：基于 Transformer 的混合文本模式光学字符识别

本研究旨在通过对预训练基础 OCR 模型进行有效的参数微调，在各种下游任务中展示出卓越的性能。我们提出了一种基于预训练 OCR Transformer 的参数高效混合文本识别方法，即 DLoRA-TrOCR。该方法将 DoRA 嵌入图像编码器和 LoRA 嵌入文本解码器的内部结构，使得下游任务的参数微调更加高效。实验结果表明，与类似的参数调整方法相比，我们的模型 DLoRA-TrOCR 具有最少的参数，并且表现更好。它可以在包括混合手写、印刷和街景文本的复杂场景数据集上取得最先进的性能。

Apr, 2024

STN-OCR: 一个单一神经网络实现文本检测和文本识别

本文提出了 STN-OCR，一种使用深度卷积神经网络进行场景文本识别的半监督学习算法，并使用空间变换器网络和文本识别网络完善识别流程，并在公共基准测试数据集上测试了该模型在字符识别和文本行识别的表现。

Jul, 2017