构建多元数字历史的高效 OCR

Apr, 2023

Efficient OCR for Building a Diverse Digital History

Jacob Carlson, Tom Bryan, Melissa Dell

TL;DR通过对 OCR 进行字符级图像检索建模，解决了现有体系结构在低资源情况下无法准确识别光学字符识别问题的不足，并为社区参与使数字历史更具代表性开辟了新的途径。

Abstract

Thousands of users consult digital archives daily, but the information they can access is unrepresentative of the diversity of documentary history. The sequence-to-sequence architecture typically used for optical character recognition (OCR) - which jointly learns a vision and language

digital archives optical character recognition low-resource collections image retrieval community engagement

发现论文，激发创造

EfficientOCR: 高效数字化世界知识的可扩展开源软件包

EffOCR 是一种开源 OCR 包，以字符或单词级图像检索问题的方式模拟 OCR，具有成本低、样本高效、易于部署和定制等优点，并在历史文件和日文文档的数字化上取得了成功。

Oct, 2023

TransDocs：基于光学字符识别和逐字翻译的翻译工具

本研究旨在提高 OCR 质量，通过使用 LSTM 技术集成 OCR 与深度学习模型进行文档翻译，并在英语到西班牙语翻译中显示了深度学习模型的比较研究，将终端到终端的性能用 BLEU-4 评分表达，旨在让研究人员和 OCR 应用于文档翻译的实践者感兴趣。

Apr, 2023

神经光学字符识别历史文献后处理校正

本研究提出了一种基于循环神经网络和卷积神经网络的光学字符识别错误自动纠正方法，针对历史藏书文献的 OCR 后置处理，以很高的效率在德语历史图书文献语料库中降低了字符误差率 32.3％以上。

Feb, 2021

深度学习技术实现高效无词典 OCR

本文提出一种无分割 OCR 系统，该系统将深度学习方法、数据增强方法和合成训练数据结合起来，使用大型文本语料库和 2000 多种字体渲染合成训练数据，并通过几何失真和提出的 alpha-compositing 数据增强技术模拟复杂的自然环境，并采用 CNN 编码器以提取文本图像特征，检验了序列模型与卷积模型在模拟输入元素交互方面的能力。

Jun, 2019

使用自定义词汇的 OCR 语言模型

这篇论文介绍了一种算法，能够在 OCR 系统中在运行时高效生成和附加特定领域的基于单词的语言模型，并且介绍了一种改进的 CTC 束搜索解码器，有效地使得假设能够基于可能的未来词汇完成保持竞争，从而显著降低了识别专业领域材料时的词错误率。

Aug, 2023

TrOCR: 基于 Transformer 的带预训练模型的光学字符识别

本文提出了一种名为 TrOCR 的端到端文本识别方法，其中使用了预训练的图像 Transformer 和文本 Transformer 模型，不仅适用于印刷体和手写体，还适用于场景文本识别任务，并在准确率方面优于当前最先进的模型。

Sep, 2021

优化文化打字文件字符识别图像处理算法

利用多目标问题公式和非支配排序遗传算法（NSGA-II）调整参数，本文评估了在光学字符识别（OCR）应用于打字文化遗产文件时图像处理方法和参数调整的影响，并发现通过数字表示类型来针对图像预处理算法进行参数化可以提高 OCR 的性能。特别是自适应阈值法、双边滤波器和开操作是剧院封面、信件和整体数据集中表现最好的算法，应在 OCR 之前应用以提高其性能。

Nov, 2023

关于大型多模型模型中 OCR 的隐秘之谜

该论文通过对现有公开的多模态模型进行综合研究，评估它们在文本识别、基于文本的视觉问题回答和关键信息提取等任务中的性能，发现这些模型主要依赖于语义理解进行字识别，对单个字符形状的感知较差，同时对文本长度漠不关心，无法有效检测图像中的细粒度特征，在传统文本任务中尚无法与领域特定方法相媲美，面临更大的挑战。

May, 2023

UPOCR：面向统一像素级 OCR 接口

提出了一种名为 UPOCR 的简单而有效的通用模型，用于统一的像素级光学字符识别接口，通过图像转化和基于视觉 Transformer 的编码器 - 解码器结构统一了多样的 OCR 任务的范式，并引入可学习的任务提示使解码器具有任务感知性，在三个像素级 OCR 任务上的实验结果显示，该方法可以在一个统一的模型上同时实现三个任务的最先进性能，为未来关于通用 OCR 模型的研究提供了有价值的策略和见解。

Dec, 2023

手写光学字符识别（OCR）：一篇全面系统性文献综述（SLR）

本篇综述研究了手写文字光学字符识别技术及其研究方向，通过人工智能和机器学习工具将手写和印刷文件转化为可分析、可编辑和可搜索的电子数据。共收集 142 篇相关研究，总结了最新的 OCR 技术和研究方向。

Jan, 2020