DISGO: 场景文本 OCR 自动端到端评估

Aug, 2023

DISGO: 场景文本 OCR 自动端到端评估

DISGO: Automatic End-to-End Evaluation for Scene Text OCR

Mei-Yuh Hwang, Yangyang Shi, Ankit Ramchandani, Guan Pang, Praveen Krishnan...

TL;DR本文讨论了在自然场景中进行光学字符识别（OCR）所面临的挑战，这比在文档上进行 OCR 要困难，因为场景中内容狂野，图像背景各异。我们提出统一使用词误差率（WER）作为评估场景文本 OCR 的新度量，包括端到端（e2e）性能和各个系统组件的性能。尤其是对于端到端度量，我们将其命名为 DISGO WER，因为它考虑了删除、插入、替换以及分组 / 排序错误。最后，我们提出利用超块的概念自动计算 e2e OCR 机器翻译的 BLEU 分数。小型 SCUT 公共测试集用于通过模块化的 OCR 系统展示 WER 的性能。

Abstract

This paper discusses the challenges of optical character recognition (OCR) on natural scenes, which is harder than OCR on documents due to the wild content and various image backgrounds. We propose to uniformly u

optical character recognition natural scenes word error rates end-to-end ocr super blocks

发现论文，激发创造

面向任意形状场景文本的大规模端到端推理

本文利用收集在 TextVQA 数据集的真实图像上的 900K 个文本单词，提出了任意形状的场景文本检测和识别系统 TextOCR，使用该系统训练的 OCR 模型 PixelM4C 在图像上进行场景文本推理，以达到新的 TextVQA 数据集上的最新性能水平。

May, 2021

无监督的跨语言语音识别误率标准化

提出了一种基于拼写和分词的自动化 WER 规范系统，通过在四种语言上的实验，平均 WER 降低了 13.28％。同时，基于该系统的标注数据的人工实验结果表明，该文中所提出的 WER 规范方法与 ASR 输出的感知质量高度一致。

Mar, 2023

基于 REO 准则的图像描述生成细粒度评估

本研究提出了细粒度评估方法 REO，从与实际参照的相关性、多余性和缺少性三个方面评估图像字幕系统的性能，实验证明与人类判断更具一致性，结果更直观。

Sep, 2019

提高光学字符识别文本自然语言处理准确性的框架

本文介绍了一种有效的框架，使用实体识别作为示例，通过构建文档合成流水线，生成具有实际应用价值的有损数据并训练文本修复模型，从而解决 OCR 错误导致的实体识别精度下降问题。

Aug, 2021

深度学习技术实现高效无词典 OCR

本文提出一种无分割 OCR 系统，该系统将深度学习方法、数据增强方法和合成训练数据结合起来，使用大型文本语料库和 2000 多种字体渲染合成训练数据，并通过几何失真和提出的 alpha-compositing 数据增强技术模拟复杂的自然环境，并采用 CNN 编码器以提取文本图像特征，检验了序列模型与卷积模型在模拟输入元素交互方面的能力。

Jun, 2019

TransDocs：基于光学字符识别和逐字翻译的翻译工具

本研究旨在提高 OCR 质量，通过使用 LSTM 技术集成 OCR 与深度学习模型进行文档翻译，并在英语到西班牙语翻译中显示了深度学习模型的比较研究，将终端到终端的性能用 BLEU-4 评分表达，旨在让研究人员和 OCR 应用于文档翻译的实践者感兴趣。

Apr, 2023

DEER: 场景文本识别的无检测端到端识别器

提出了一种基于 DEER 框架的检测不可知端到端识别器，通过使用单个参考点而不是检测到的区域，使检测器和识别器之间的依赖性减少，并可在未标注边界多边形的情况下进行文本识别。

Mar, 2022

Levenshtein OCR

提出了一种基于 Vision-Language Transformer (VLT) 的新型场景文本识别器 (Levenshtein OCR)，利用交叉模态 Transformer 相互融合和逐步近似 ground truth, 通过模拟学习，实现并行解码，动态长度变化和良好的可解释性。实验证明，LevOCR 在标准基准测试中实现了最新水平，LevOCR 算法的有效性和优势得到了定量和定性分析的验证。

Sep, 2022

端到端、多语言 OCR 的复合网络

本文提出了一种名为 Multiplexed Multilingual Mask TextSpotter 的多路复用多语言 OCR 方法，该方法可以在字级别上执行脚本识别，并通过多个识别头来处理不同的脚本，同时维护统一的损失函数，从而实现脚本识别和多个识别头的优化，本方法具有较高的识别能力和多语言 OCR 系统的潜力。

Mar, 2021

Kwak'wala OCR 系统的用户中心评估

本文提出了 OCR 系统的人类中心评估方法，并以 Kwak'wala 语作为案例研究，证明利用 OCR 技术可以大幅减少手动文本转录所需的时间，尤其对濒临灭绝的语言社区和研究人员，对语言文献的记录和活化具有潜在的益处。

Feb, 2023