自我中心数据OCR评估

Jun, 2022

An Evaluation of OCR on Egocentric Data

Valentin Popescu, Dima Damen, Toby Perrett

TL;DR本文研究了现有的OCR方法在自我中心数据上的应用。我们针对 EPIC-KITCHENS 图像中的文本进行了注释，并证明现有的OCR方法难以应对旋转文本。我们介绍了一个简单的旋转和合并过程，可应用于预训练的OCR模型，并将规范化编辑距离误差减半。这表明未来的OCR尝试应将旋转纳入模型设计和培训过程中。

Abstract

In this paper, we evaluate state-of-the-art ocr methods on egocentric data. We annotate text in epic-kitchens images, and demonstrate that

发现论文，激发创造

使用角度监督的内容感知矫正

该研究介绍了一种新的文档矫正方法—— 内容感知矫正算法（Content Aware Rectification using Angle Supervision, CREASE），该算法通过利用文档内容、单词位置及其方向等信号来辅助矫正，采用一种新颖的基于像素角度回归的方法和曲率估计，优化了文档矫正模型。与之前的方法相比，它在OCR准确性、几何误差和视觉相似度方面有明显的优势。

Aug, 2020

Kwak'wala OCR系统的用户中心评估

本文提出了OCR系统的人类中心评估方法，并以Kwak'wala语作为案例研究，证明利用OCR技术可以大幅减少手动文本转录所需的时间，尤其对濒临灭绝的语言社区和研究人员，对语言文献的记录和活化具有潜在的益处。

Feb, 2023

通过后处理模型提高 OCR 性能：采用字形嵌入进行改进的校正

探讨后期OCR模型的潜力，以克服OCR模型的局限性，并研究将字形嵌入应用于后期OCR纠错性能的影响。研究通过使用CharBERT和独特的嵌入技术将OCR输出进行嵌入，捕捉字符的视觉特征。研究发现后期OCR纠错有效地解决了次优OCR模型的缺陷，并且字形嵌入使模型能够取得优异的结果，包括纠正单词的能力。

Aug, 2023

OCR的标度律实证研究

通过对模型尺寸、数据量、计算和模型性能进行全面研究，在自然语言处理领域确定了它们之间的关系，然而在光学字符识别领域的标度律尚未被研究。本研究通过对模型性能、数据量和计算规模之间的关联进行详细研究，表明在控制其他影响因素的情况下，性能与模型尺寸以及训练数据量之间存在平滑的幂律关系。此外，研究人员构建了一个大规模数据集REBU-Syn，包括600万真实样本和1800万合成样本。基于他们的比例定律和新数据集，他们成功训练了一个场景文字识别模型，在6个常见的测试基准上取得了97.42%的平均准确率，达到了新的最先进水平。

Dec, 2023

推进生成模型评估：OCR系统中逼真图像合成和比较的新算法

本研究提出了一种新颖的算法，主要针对生成模型中合成图像的真实性进行客观评估。该算法通过改进Fréchet Inception Distance（FID）得分，显著提高了评估方法的精确性，特别针对生成和评估阿拉伯手写数字的真实图像的挑战。我们的算法为此领域的OCR的发展奠定了基础，并为高质量合成图像的生成和评估设立了新的标准，从而不仅可以比较不同的生成模型，还为它们的设计和输出提供改进的途径。

Feb, 2024

ODM：场景文本检测和定位的文本图像进一步对齐预训练方法

提出了一种新的预训练方法，OCR-Text Destylization Modeling（ODM），能够更好地对齐文本和OCR-Text，使预训练模型适应场景文本检测和识别任务中的复杂多样的风格，并通过新的标注生成方法和Text-Controller模块降低了OCR任务中的标注成本，从而使更多的无标签数据参与预训练。大量的实验证明了该方法在场景文本检测和识别任务中显著提高了性能，并超过了当前预训练方法。

Mar, 2024

LOCR：基于位置引导的光学字符识别Transformer

教育文档的光学字符识别 (OCR) 模型 LOCR，通过在自回归过程中将位置引导集成到变压器架构中，有效地解决了复杂布局文档中的重复问题，提高了准确性，同时还提供了交互式OCR模式。

Mar, 2024

推进后OCR修正：合成数据的比较研究

本研究探讨了合成数据在后OCR领域的应用，解决了数据量、增强和合成数据生成方法对模型性能的影响等问题。我们提出了一种新算法，利用计算机视觉特征检测算法计算字形相似性，以构建后OCR合成数据。实验结果表明，ByT5等模型能够显著降低字符错误率（CER），尤其是在低资源语言中，所提合成数据生成方法优于传统方法。

Aug, 2024

提升后OCR纠错：合成数据的比较研究

本研究解决了后OCR纠错中合成数据应用的问题，提出了一种新算法，利用计算机视觉特征检测算法计算字形相似性以构建合成数据。研究表明，该算法能在低资源语言中显著降低字符错误率，且与传统方法相比，合成数据生成方法具有明显优势。

Aug, 2024

通用OCR理论：通过统一的端到端模型迈向OCR-2.0

本研究针对传统OCR系统在智能处理光学字符方面的不足，提出了通用OCR理论及其模型GOT，旨在推动OCR-2.0的发展。GOT是一种包含580M参数的统一端到端模型，能够处理各种光学字符任务，并提供互动OCR功能和动态分辨率支持，实验结果证明其优越性。

Sep, 2024