Jan, 2021

应用图卷积网络进行 OCR 后段识别

TL;DR本文提出了一种新的方法,使用空间图卷积网络(GCN)应用于 OCR 文本框,在文档图像中识别段落。通过线路分割和线路聚类两个步骤,从 OCR 结果的行中提取段落。每个步骤使用从边界框建立的贝塔骨架图,其中图边提供了有利于图卷积操作的高效支持。仅使用纯布局输入特征,GCN 模型大小比基于 R-CNN 的模型小 3~4 个数量级,同时在 PubLayNet 和其他数据集上实现可比较或更好的准确性。此外,GCN 模型在从合成训练数据到真实世界图像的转换,以及针对可变文档样式的适应性方面表现良好。