Aug, 2023

DISGO: 场景文本 OCR 自动端到端评估

TL;DR本文讨论了在自然场景中进行光学字符识别(OCR)所面临的挑战,这比在文档上进行 OCR 要困难,因为场景中内容狂野,图像背景各异。我们提出统一使用词误差率(WER)作为评估场景文本 OCR 的新度量,包括端到端(e2e)性能和各个系统组件的性能。尤其是对于端到端度量,我们将其命名为 DISGO WER,因为它考虑了删除、插入、替换以及分组 / 排序错误。最后,我们提出利用超块的概念自动计算 e2e OCR 机器翻译的 BLEU 分数。小型 SCUT 公共测试集用于通过模块化的 OCR 系统展示 WER 的性能。