基于 CTC 模型的印度语言 OCR 的实证研究

May, 2022

基于 CTC 模型的印度语言 OCR 的实证研究

An empirical study of CTC based models for OCR of Indian languages

Minesh Mathew, CV Jawahar

TL;DR该论文研究了用 CTC 建立神经网络模型的方法，将 13 种印度语言的文字识别单位定为行或单词，使用合成数据训练模型，对比公共 OCR 工具，提出了新的公共数据集 Mozhi，实现了在印度语言中进行单词和行识别的 OCR。

Abstract

Recognition of text on word or line images, without the need for sub-word segmentation has become the mainstream of research and development of text recognition for indian languages. Modelling unsegmented sequences using Connectionist Temporal Classification (CTC) is the most commonly

text recognition ocr indian languages neural network models unicode sequence

发现论文，激发创造

基于连接主义时间分类损失的无分割 OCR 模型用于文本验证码分类

提出了一种基于连接主义时间分类丢失技术的无分割 OCR 模型，用于文本 captcha 分类。与现有模型相比，该模型在字符级别上达到了 99.80％的准确率，词级别上达到了 95％的准确率。采用无分割连接主义时间分类丢失技术处理变长复杂 captcha，将在保障软件系统安全方面得到广泛应用。

Feb, 2024

用于德语端到端语音识别的大语料 CTC 分割

本研究结合之前未标注的语音数据通过采用 CTC 预训练的两阶段方法生成训练数据，使用 CTC 和 attention Transformer 模型对德语语音识别进行训练，实现了 12.8％的识别错误率，超过了传统混合 DNN / HMM ASR 的 14.4％的基础水平。

Jul, 2020

手写汉字文本分割识别：一种无需分段注释的方法

提出一种基于分割的方法以识别手写中文文本，使用简单而有效的完全卷积网络实现。使用一种新颖的弱监督学习方法，只需使用交录注释即可训练网络；无需先前分割方法所需的昂贵字符分割标注。因为完全卷积网络缺乏上下文建模，所以提出了一种上下文规则化方法将上下文信息纳入训练，进一步提高了识别性能。在四个广泛使用的基准测试上进行了广泛实验，即 CASIA-HWDB，CASIA-OLHWDB，ICDAR2013 和 SCUT-HCCDoc，结果表明我们的方法在在线和离线 HCTR 上都显著优于现有方法，并且比 CTC / 基于注意力的方法具有更高的推断速度。

Jul, 2022

使用滑动卷积字符模型识别场景文本

本文提出了一种基于卷积特征映射中的字符模型的场景文本识别方法，可以避免基于分割的识别方法中的字符分割困难，并且可以识别未知单词，与现有方法相比具有相对较小的模型大小和优秀的性能表现。

Sep, 2017

TrOCR: 基于 Transformer 的带预训练模型的光学字符识别

本文提出了一种名为 TrOCR 的端到端文本识别方法，其中使用了预训练的图像 Transformer 和文本 Transformer 模型，不仅适用于印刷体和手写体，还适用于场景文本识别任务，并在准确率方面优于当前最先进的模型。

Sep, 2021

推进声学到单词 CTC 模型

本论文研究了基于 CTC 准则的声音到单词模型的问题，并提出采用混合 CTC 模型和混合单元 CTC 模型的解决方案，最终实现了在没有使用语言模型或复杂解码器的情况下取得比传统 CD-CTC 模型更好的结果。

Mar, 2018

GTC: 基于 CTC 的引导训练技术提高场景文本识别的准确率和效率

本文提出了一种基于引导训练的 CTC 模型，在保持快速推断速度的同时，从更强大的注意力引导中学习更好的对齐和特征表示，进而实现对正常和非正常场景文本的精确识别。此外，还引入了图卷积网络（GCN）来学习提取特征的局部相关性，并在标准基准测试中取得了新的场景文本识别的最新成果。

Feb, 2020

使用深度学习的 Telugu OCR 框架

本文针对旁遮普文字的光学字符识别任务，提出一种基于数学形态学的分割方法、深度卷积神经网络的分类模块及三次马尔可夫链式语言建模的末端至末端框架，取得了最新的错误率优化效果，并详尽阐述了深度学习实现过程中所需的众多技巧所依据的统计学理论。

Sep, 2015

TransDocs：基于光学字符识别和逐字翻译的翻译工具

本研究旨在提高 OCR 质量，通过使用 LSTM 技术集成 OCR 与深度学习模型进行文档翻译，并在英语到西班牙语翻译中显示了深度学习模型的比较研究，将终端到终端的性能用 BLEU-4 评分表达，旨在让研究人员和 OCR 应用于文档翻译的实践者感兴趣。

Apr, 2023

基于预训练语言模型的知识迁移，提升基于 CTC 的语音识别

基于 CTC 的自动语音识别模型一直比基于处理单元的编码 - 解码模型弱，本文提出了两种知识转移方法，借助预训练的 BERT 和 GPT2 来提高 CTC-based 模型的性能。在实验中，相对于不使用外部语言模型的基础模型，我们的方法将字符错误率降低了 16.1%。

Feb, 2022