使用深度学习的 Telugu OCR 框架

Sep, 2015

Telugu OCR Framework using Deep Learning

Rakesh Achanta, Trevor Hastie

TL;DR本文针对旁遮普文字的光学字符识别任务，提出一种基于数学形态学的分割方法、深度卷积神经网络的分类模块及三次马尔可夫链式语言建模的末端至末端框架，取得了最新的错误率优化效果，并详尽阐述了深度学习实现过程中所需的众多技巧所依据的统计学理论。

Abstract

In this paper, we address the task of optical character recognition(OCR) for the telugu script. We present an end-to-end framework that segments the text image, classifies the characters and extracts lines using

optical character recognition telugu script deep convolutional neural network mathematical morphology language model

发现论文，激发创造

深度学习技术实现高效无词典 OCR

本文提出一种无分割 OCR 系统，该系统将深度学习方法、数据增强方法和合成训练数据结合起来，使用大型文本语料库和 2000 多种字体渲染合成训练数据，并通过几何失真和提出的 alpha-compositing 数据增强技术模拟复杂的自然环境，并采用 CNN 编码器以提取文本图像特征，检验了序列模型与卷积模型在模拟输入元素交互方面的能力。

Jun, 2019

TransDocs：基于光学字符识别和逐字翻译的翻译工具

本研究旨在提高 OCR 质量，通过使用 LSTM 技术集成 OCR 与深度学习模型进行文档翻译，并在英语到西班牙语翻译中显示了深度学习模型的比较研究，将终端到终端的性能用 BLEU-4 评分表达，旨在让研究人员和 OCR 应用于文档翻译的实践者感兴趣。

Apr, 2023

基于 CTC 模型的印度语言 OCR 的实证研究

该论文研究了用 CTC 建立神经网络模型的方法，将 13 种印度语言的文字识别单位定为行或单词，使用合成数据训练模型，对比公共 OCR 工具，提出了新的公共数据集 Mozhi，实现了在印度语言中进行单词和行识别的 OCR。

May, 2022

TrOCR: 基于 Transformer 的带预训练模型的光学字符识别

本文提出了一种名为 TrOCR 的端到端文本识别方法，其中使用了预训练的图像 Transformer 和文本 Transformer 模型，不仅适用于印刷体和手写体，还适用于场景文本识别任务，并在准确率方面优于当前最先进的模型。

Sep, 2021

基于图像的字符识别，从寺庙解码铭文的文档系统

该研究训练和分析应用于位于 Brihadeeswarar Temple 墙壁上发现的 10 世纪古代泰米尔铭文的光学字符识别（OCR）方法，其中选择的 OCR 方法包括使用现代 ICR 技术预处理原始数据的 Tesseract（一种广泛使用的 OCR 引擎）和一个框编辑软件来调优我们的模型，通过 Tesseract 的分析来评估它们在准确解读古代泰米尔字符方面的有效性，我们的模型在数据集上的性能通过准确率来确定，该数据集被划分为训练集和测试集，通过解决脚本的历史背景所带来的独特挑战，该研究旨在为 OCR 领域的改进保存和解释古代铭文做出有价值的贡献。

May, 2024

使用多层感知器识别文本图像

该篇论文介绍了如何应用神经网络和反向传播算法实现光学字符识别（OCR）并转换为可编辑机器可读的数字文本格式。

Dec, 2016

神经光学字符识别历史文献后处理校正

本研究提出了一种基于循环神经网络和卷积神经网络的光学字符识别错误自动纠正方法，针对历史藏书文献的 OCR 后置处理，以很高的效率在德语历史图书文献语料库中降低了字符误差率 32.3％以上。

Feb, 2021

基于连接主义时间分类损失的无分割 OCR 模型用于文本验证码分类

提出了一种基于连接主义时间分类丢失技术的无分割 OCR 模型，用于文本 captcha 分类。与现有模型相比，该模型在字符级别上达到了 99.80％的准确率，词级别上达到了 95％的准确率。采用无分割连接主义时间分类丢失技术处理变长复杂 captcha，将在保障软件系统安全方面得到广泛应用。

Feb, 2024

使用卷积神经网络的手写体识别

通过使用 NIST 数据集对卷积神经网络进行训练并提取图像特征，成功实现了 90.54% 的识别准确率和 2.53% 的损失，该技术可以对手写和印刷文本进行 OCR 和 ICR 的处理。

Jul, 2023

DLoRA-TrOCR：基于 Transformer 的混合文本模式光学字符识别

本研究旨在通过对预训练基础 OCR 模型进行有效的参数微调，在各种下游任务中展示出卓越的性能。我们提出了一种基于预训练 OCR Transformer 的参数高效混合文本识别方法，即 DLoRA-TrOCR。该方法将 DoRA 嵌入图像编码器和 LoRA 嵌入文本解码器的内部结构，使得下游任务的参数微调更加高效。实验结果表明，与类似的参数调整方法相比，我们的模型 DLoRA-TrOCR 具有最少的参数，并且表现更好。它可以在包括混合手写、印刷和街景文本的复杂场景数据集上取得最先进的性能。

Apr, 2024