通过稀疏图分割实现非受控条件下的文本阅读顺序

May, 2023

通过稀疏图分割实现非受控条件下的文本阅读顺序

Text Reading Order in Uncontrolled Conditions by Sparse Graph Segmentation

Renshen Wang, Yasuhisa Fujii, Alessandro Bissacco

TL;DR本文提出了一种轻量、可扩展和通用的方法，通过运行在稀疏布局基础图上的多模态、多任务图卷积网络（GCN）来识别文本阅读顺序，并使用后处理聚类和排序算法生成所有文本行的有序序列。

Abstract

text reading order is a crucial aspect in the output of an ocr engine, with a large impact on downstream tasks. Its difficulty lies in the large variation of domain specific →

发现论文，激发创造

卷积神经网络文本分类中词序的有效利用

本文研究了在文本分类中应用卷积神经网络，以利用文本数据的1D结构（即单词顺序）进行精确预测，并提出了一种简单但新颖的变异，即在卷积层中使用词袋转换。实验证明该方法与现有技术相比具有更高的准确性。

Dec, 2014

在深度卷积序列中阅读场景文本

使用深度文本递归网络（DTRN）进行场景文本识别，包含顺序标记问题，卷积神经网络，长短时记忆 lstm 模型，具有高度的识别准确率，对于高度不确定的单词具有可靠性等优点。

Jun, 2015

TextScanner: 有序读取字符用于强式场景文字识别

本文提出了一种基于Semantic Segmentation和RNN-attention的新方法TextScanner，用于场景中的文字识别，并在标准基准数据集上得到了最佳结果，尤其是在中文识别方面。

Dec, 2019

利用视觉关系和图卷积网络进行任意形状场景文本检测

本论文提出了一种名为ReLaText的新型任意形状文本检测方法，通过采用将文本检测转化为视觉关系检测问题的方法，使用基于锚点自由区域提案网络的文本检测器以及基于图卷积网络（GCN）的链接关系预测模块，实现了更为准确和高效的文本检测。实验结果表明，ReLaText达到了5个公共文本检测基准（RCTW-17、MSRA-TD500、Total-Text、CTW1500和DAST1500）的最佳性能。

Mar, 2020

应用图卷积网络进行OCR后段识别

本文提出了一种新的方法，使用空间图卷积网络（GCN）应用于OCR文本框，在文档图像中识别段落。通过线路分割和线路聚类两个步骤，从OCR结果的行中提取段落。每个步骤使用从边界框建立的贝塔骨架图，其中图边提供了有利于图卷积操作的高效支持。仅使用纯布局输入特征，GCN模型大小比基于R-CNN的模型小 3~4 个数量级，同时在PubLayNet和其他数据集上实现可比较或更好的准确性。此外，GCN模型在从合成训练数据到真实世界图像的转换，以及针对可变文档样式的适应性方面表现良好。

Jan, 2021

ROPE：基于阅读顺序等变位置编码的基于图的文档信息提取

该论文介绍了一种新的位置编码技术ROPE，旨在提高文档中单词的阅读顺序建模。在FUNSD数据集和大规模付款数据集上的实验证明，ROPE相对于现有的图卷积网络模型提高了8.4%的F1分数，特别是在单词标签和单词分组等文档实体提取任务中表现良好。

Jun, 2021

BROS: 一个针对文本和排版的预训练语言模型，用于更好地从文档中提取关键信息

提出一种名为BROS（BERT Relying On Spatiality）的预训练语言模型，重点在于将文字和布局有效组合起来，通过对文档中文字的相对位置进行编码以学习二维空间中的文本语义和布局，并利用面积屏蔽策略从未标记文档进行优化训练。BROS表现出与其他方法相当甚至更好的性能，解决了两个实际的关键信息提取问题：减少文本顺序错误和使用较少的下游示例进行高效学习。

Aug, 2021

LayoutReader：用于阅读顺序检测的文本和布局预训练

本论文提出了一个读取顺序检测系统，使用深度学习和基于 seq2seq 模型的 LayoutReader，对包含 500,000 份文档的 ReadingBank 数据库进行了测试，并提高了开源和商业 OCR 引擎的文本顺序识别能力。

Aug, 2021

XYLayoutLM：面向布局感知的多模态网络，用于视觉丰富的文档理解

本论文提出了一种名为XYLayoutLM的鲁棒的布局感知多模态网络，它可以从通过 Augmented XY Cut 生成的正确阅读顺序中捕获和利用丰富的布局信息，并且提出了一种扩展有条件位置编码模块来处理变长输入序列，同时从文本和视觉模态中提取局部布局信息生成位置编码，并在文档理解任务上取得了竞争性的结果。

Mar, 2022

Doc-GCN: 面向文档布局分析的异构图卷积网络

我们提出了一种新的文档布局分析方法，即 Doc-GCN ，该方法通过构建图形来描述文档的固有特征并将这些信息应用于图卷积网络中。最终结果表明，我们的方法在三个常用的 DLA 数据集中取得了新的最佳结果。

Aug, 2022