使用多层感知器识别文本图像

ICMLDec, 2016

Recognition of Text Image Using Multilayer Perceptron

Singh Vijendra, Nisha Vasudeva, Hem Jyotsana Parashar

TL;DR该篇论文介绍了如何应用神经网络和反向传播算法实现光学字符识别（OCR）并转换为可编辑机器可读的数字文本格式。

Abstract

The biggest challenge in the field of image processing is to recognize documents both in printed and handwritten format. optical character recognition

optical character recognition neural network character recognition back propagation image processing

发现论文，激发创造

使用卷积神经网络的手写体识别

通过使用 NIST 数据集对卷积神经网络进行训练并提取图像特征，成功实现了 90.54% 的识别准确率和 2.53% 的损失，该技术可以对手写和印刷文本进行 OCR 和 ICR 的处理。

Jul, 2023

通过自然语言处理进行后处理以改善光学字符识别的新型流程

提出了一种使用自然语言处理（NLP）工具的后处理方法，在手写或打印文本上先进行光学字符识别（OCR），然后使用 NLP 提高其准确性。

Jul, 2023

TrOCR: 基于 Transformer 的带预训练模型的光学字符识别

本文提出了一种名为 TrOCR 的端到端文本识别方法，其中使用了预训练的图像 Transformer 和文本 Transformer 模型，不仅适用于印刷体和手写体，还适用于场景文本识别任务，并在准确率方面优于当前最先进的模型。

Sep, 2021

基于图像处理的场景文本检测与识别：Tesseract

本研究着重于自然图像中文字的检测和识别，使用基于卡车上的摄像机捕捉图像的方法，利用 Tesseract OCR 引擎来识别检测到的文字区域。研究中讨论了测试中出现的一个重要的假阳性情况并阐述了缓解该问题的策略。最终，该项目实现了超过 80％的正确字符识别率，并概述了开发阶段、主要挑战和一些有趣的发现。

Apr, 2020

优化文化打字文件字符识别图像处理算法

利用多目标问题公式和非支配排序遗传算法（NSGA-II）调整参数，本文评估了在光学字符识别（OCR）应用于打字文化遗产文件时图像处理方法和参数调整的影响，并发现通过数字表示类型来针对图像预处理算法进行参数化可以提高 OCR 的性能。特别是自适应阈值法、双边滤波器和开操作是剧院封面、信件和整体数据集中表现最好的算法，应在 OCR 之前应用以提高其性能。

Nov, 2023

手写光学字符识别（OCR）：一篇全面系统性文献综述（SLR）

本篇综述研究了手写文字光学字符识别技术及其研究方向，通过人工智能和机器学习工具将手写和印刷文件转化为可分析、可编辑和可搜索的电子数据。共收集 142 篇相关研究，总结了最新的 OCR 技术和研究方向。

Jan, 2020

基于文本和图像的多模态深度网络文档分类

本文介绍了一种多模态神经网络，结合了 OCR 提取的文本和图像信息，来对文献图像进行分类。该方法在 Tobacco3482 和 RVL-CDIP 数据集上的准确率提高了 3%。

Jul, 2019

深度学习技术实现高效无词典 OCR

本文提出一种无分割 OCR 系统，该系统将深度学习方法、数据增强方法和合成训练数据结合起来，使用大型文本语料库和 2000 多种字体渲染合成训练数据，并通过几何失真和提出的 alpha-compositing 数据增强技术模拟复杂的自然环境，并采用 CNN 编码器以提取文本图像特征，检验了序列模型与卷积模型在模拟输入元素交互方面的能力。

Jun, 2019

神经光学字符识别历史文献后处理校正

本研究提出了一种基于循环神经网络和卷积神经网络的光学字符识别错误自动纠正方法，针对历史藏书文献的 OCR 后置处理，以很高的效率在德语历史图书文献语料库中降低了字符误差率 32.3％以上。

Feb, 2021

优化神经网络训练以用于历史希伯来文本的 OCR 错误修正

本研究通过创新方法训练一种轻量级神经网络，用于希伯来语 OCR 后处理，使用少量手动创建的数据。通过实验发现，使用所提出方法训练的网络比随机生成错误更有效，性能强于 OCR 后校正和复杂拼写检查的最新神经网络。这些结果对许多数字人文项目具有实际意义。

Jul, 2023