应用图卷积网络进行 OCR 后段识别

Jan, 2021

应用图卷积网络进行 OCR 后段识别

Post-OCR Paragraph Recognition by Graph Convolutional Networks

Renshen Wang, Yasuhisa Fujii, Ashok C. Popat

TL;DR本文提出了一种新的方法，使用空间图卷积网络（GCN）应用于 OCR 文本框，在文档图像中识别段落。通过线路分割和线路聚类两个步骤，从 OCR 结果的行中提取段落。每个步骤使用从边界框建立的贝塔骨架图，其中图边提供了有利于图卷积操作的高效支持。仅使用纯布局输入特征，GCN 模型大小比基于 R-CNN 的模型小 3~4 个数量级，同时在 PubLayNet 和其他数据集上实现可比较或更好的准确性。此外，GCN 模型在从合成训练数据到真实世界图像的转换，以及针对可变文档样式的适应性方面表现良好。

Abstract

We propose a new approach for paragraph recognition in document images by spatial graph convolutional networks (GCN) applied on ocr text b

paragraph recognition spatial graph convolutional networks ocr line splitting line clustering

发现论文，激发创造

Doc-GCN: 面向文档布局分析的异构图卷积网络

我们提出了一种新的文档布局分析方法，即 Doc-GCN ，该方法通过构建图形来描述文档的固有特征并将这些信息应用于图卷积网络中。最终结果表明，我们的方法在三个常用的 DLA 数据集中取得了新的最佳结果。

Aug, 2022

图卷积网络文本分类

本文介绍了一种基于图卷积神经网络的文本分类算法 (Text GCN)，该算法利用单一的文本图构建并联合学习词和文本的表征，经实验表明，将该算法应用于多个基准数据集后，在无需外部词嵌入和预先知识的情况下，文本 GCN 仍可优于现有的文本分类方法。

Sep, 2018

基于全卷积网络的多方向文本检测

该研究提出了一种使用全卷积神经网络对自然图像中的文本进行检测的新方法，通过综合考虑本地和全局线索，以分层的方式定位文本线。通过组合显著地图和字符组件来估计文本行假设，并使用另一个卷积神经网络分类器预测每个字符的质心，以去除误判。该方法适用于处理多个方向、语言和字体的文本。在三个文本检测基准测试 MSRA-TD500、ICDAR2015 和 ICDAR2013 的性能方面，该方法实现了最先进的性能。

Apr, 2016

基于图卷积网络的多标签图像识别

提出了一种基于图卷积网络的多标签分类模型，通过建立对象标签之间的图，学习一个对相互依赖的物体分类器的表示，同时使用重新加权的方法来创建有效的标签相关矩阵以指导 GCN 中节点之间的信息传播，在两个多标签图像识别数据集上实验证明了方法的有效性，并且可视化分析表明该模型学习到的分类器保持有意义的语义拓扑结构。

Apr, 2019

PARAGRAPH2GRAPH: 基于 GNN 的布局段落分析框架

本文提出了一种名为 Paragraph2Graph 的基于图神经网络（GNN）的模型，它能够处理多种语言，并表现出了在处理文档布局方面的出色能力，同时可以适应需要进行严格分离的业务场景。

Apr, 2023

深度关系推理图网络用于任意形状文本检测

本文提出了一种基于关系推理图网络的新型统一任意形状文本检测方法，其中使用 CNN 和 GCN 构建创新的局部图模型将任意形状文本实例划分成一系列小矩形组件，通过深度的关系推理网络进行推理，实验表明该方法在公开数据集上具有最先进的性能。

Mar, 2020

STN-OCR: 一个单一神经网络实现文本检测和文本识别

本文提出了 STN-OCR，一种使用深度卷积神经网络进行场景文本识别的半监督学习算法，并使用空间变换器网络和文本识别网络完善识别流程，并在公共基准测试数据集上测试了该模型在字符识别和文本行识别的表现。

Jul, 2017

使用图神经网络重新思考表格识别

本文提出一种基于图网络架构的表格识别方法，在视觉特征提取方面融合了卷积神经网络的优势；实验证明该方法优于基准线方法。此外，为了解决大规模数据集问题，文中提出了一种合成数据集，并开源了数据集生成及图网络训练框架，以推进研究的可复制性。

May, 2019

文本分类的连续图卷积网络

提出了一种使用连续图卷积网络的新方法来推断在线文本数据的模型，称为 ContGCN，采用了全标记 - 任意文档范式来动态更新每批处理的文档 - 标记图，并使用自我监督对比学习目标来更新模型。在华为公共舆情分析系统上进行的 3 个月 A/B 测试表明，ContGCN 相比现有的方法提高了 8.86％的性能。

Apr, 2023

基于分层多图网络的图像分类

本研究探讨了基于 Graph Convolutional Networks 的最佳实践，旨在利用 GCNs 自然的多关系数据建模能力和处理不规则输入图片的能力，在 MNIST、CIFAR-10 和 PASCAL 数据集上甚至优于 CNNs 的图像分类表现。

Jul, 2019