TransDocs：基于光学字符识别和逐字翻译的翻译工具

Apr, 2023

TransDocs：基于光学字符识别和逐字翻译的翻译工具

TransDocs: Optical Character Recognition with word to word translation

Abhishek Bamotra, Phani Krishna Uppala

TL;DR本研究旨在提高 OCR 质量，通过使用 LSTM 技术集成 OCR 与深度学习模型进行文档翻译，并在英语到西班牙语翻译中显示了深度学习模型的比较研究，将终端到终端的性能用 BLEU-4 评分表达，旨在让研究人员和 OCR 应用于文档翻译的实践者感兴趣。

Abstract

While ocr has been used in various applications, its output is not always accurate, leading to misfit words. This research work focuses on improving the optical character recognition (ocr) with →

ocr ml techniques lstm document translation bleu-4 score

发现论文，激发创造

TrOCR: 基于 Transformer 的带预训练模型的光学字符识别

本文提出了一种名为 TrOCR 的端到端文本识别方法，其中使用了预训练的图像 Transformer 和文本 Transformer 模型，不仅适用于印刷体和手写体，还适用于场景文本识别任务，并在准确率方面优于当前最先进的模型。

Sep, 2021

构建多元数字历史的高效 OCR

通过对 OCR 进行字符级图像检索建模，解决了现有体系结构在低资源情况下无法准确识别光学字符识别问题的不足，并为社区参与使数字历史更具代表性开辟了新的途径。

Apr, 2023

DLoRA-TrOCR：基于 Transformer 的混合文本模式光学字符识别

本研究旨在通过对预训练基础 OCR 模型进行有效的参数微调，在各种下游任务中展示出卓越的性能。我们提出了一种基于预训练 OCR Transformer 的参数高效混合文本识别方法，即 DLoRA-TrOCR。该方法将 DoRA 嵌入图像编码器和 LoRA 嵌入文本解码器的内部结构，使得下游任务的参数微调更加高效。实验结果表明，与类似的参数调整方法相比，我们的模型 DLoRA-TrOCR 具有最少的参数，并且表现更好。它可以在包括混合手写、印刷和街景文本的复杂场景数据集上取得最先进的性能。

Apr, 2024

Levenshtein OCR

提出了一种基于 Vision-Language Transformer (VLT) 的新型场景文本识别器 (Levenshtein OCR)，利用交叉模态 Transformer 相互融合和逐步近似 ground truth, 通过模拟学习，实现并行解码，动态长度变化和良好的可解释性。实验证明，LevOCR 在标准基准测试中实现了最新水平，LevOCR 算法的有效性和优势得到了定量和定性分析的验证。

Sep, 2022

神经光学字符识别历史文献后处理校正

本研究提出了一种基于循环神经网络和卷积神经网络的光学字符识别错误自动纠正方法，针对历史藏书文献的 OCR 后置处理，以很高的效率在德语历史图书文献语料库中降低了字符误差率 32.3％以上。

Feb, 2021

深度学习技术实现高效无词典 OCR

本文提出一种无分割 OCR 系统，该系统将深度学习方法、数据增强方法和合成训练数据结合起来，使用大型文本语料库和 2000 多种字体渲染合成训练数据，并通过几何失真和提出的 alpha-compositing 数据增强技术模拟复杂的自然环境，并采用 CNN 编码器以提取文本图像特征，检验了序列模型与卷积模型在模拟输入元素交互方面的能力。

Jun, 2019

序列对序列神经网络模型进行音译

本文介绍了使用神经序列到序列模型在现有数据集上达到最先进或接近最先进的结果，以转录为重点组件的机器翻译系统和软件国际化。为了使机器转录易于使用，我们开放了一个新的阿拉伯文到英文的转录数据集和我们训练的模型。

Oct, 2016

使用自定义词汇的 OCR 语言模型

这篇论文介绍了一种算法，能够在 OCR 系统中在运行时高效生成和附加特定领域的基于单词的语言模型，并且介绍了一种改进的 CTC 束搜索解码器，有效地使得假设能够基于可能的未来词汇完成保持竞争，从而显著降低了识别专业领域材料时的词错误率。

Aug, 2023

使用深度学习的 Telugu OCR 框架

本文针对旁遮普文字的光学字符识别任务，提出一种基于数学形态学的分割方法、深度卷积神经网络的分类模块及三次马尔可夫链式语言建模的末端至末端框架，取得了最新的错误率优化效果，并详尽阐述了深度学习实现过程中所需的众多技巧所依据的统计学理论。

Sep, 2015

清洗珠：基于 Google OCR 藏文手稿的神经拼写校正模型

本篇论文介绍了一种使用 OCR 技术对西藏手稿进行数字化处理并采用神经拼写纠正模型进行自动纠正噪声输出的方法，通过 Transformer + 置信度得分机制，证明该方法比 Transformer，LSTM-2-LSTM 和 GRU-2-GRU 架构更为优越，为人文社科领域研究提供了方便。

Apr, 2023