通过稀疏图分割实现非受控条件下的文本阅读顺序
本文研究了在文本分类中应用卷积神经网络,以利用文本数据的1D结构(即单词顺序)进行精确预测,并提出了一种简单但新颖的变异,即在卷积层中使用词袋转换。实验证明该方法与现有技术相比具有更高的准确性。
Dec, 2014
使用深度文本递归网络(DTRN)进行场景文本识别,包含顺序标记问题,卷积神经网络,长短时记忆 lstm 模型,具有高度的识别准确率,对于高度不确定的单词具有可靠性等优点。
Jun, 2015
本文提出了一种基于Semantic Segmentation和RNN-attention的新方法TextScanner,用于场景中的文字识别,并在标准基准数据集上得到了最佳结果,尤其是在中文识别方面。
Dec, 2019
本论文提出了一种名为ReLaText的新型任意形状文本检测方法,通过采用将文本检测转化为视觉关系检测问题的方法,使用基于锚点自由区域提案网络的文本检测器以及基于图卷积网络(GCN)的链接关系预测模块,实现了更为准确和高效的文本检测。实验结果表明,ReLaText达到了5个公共文本检测基准(RCTW-17、MSRA-TD500、Total-Text、CTW1500和DAST1500)的最佳性能。
Mar, 2020
本文提出了一种新的方法,使用空间图卷积网络(GCN)应用于OCR文本框,在文档图像中识别段落。通过线路分割和线路聚类两个步骤,从OCR结果的行中提取段落。每个步骤使用从边界框建立的贝塔骨架图,其中图边提供了有利于图卷积操作的高效支持。仅使用纯布局输入特征,GCN模型大小比基于R-CNN的模型小 3~4 个数量级,同时在PubLayNet和其他数据集上实现可比较或更好的准确性。此外,GCN模型在从合成训练数据到真实世界图像的转换,以及针对可变文档样式的适应性方面表现良好。
Jan, 2021
该论文介绍了一种新的位置编码技术ROPE,旨在提高文档中单词的阅读顺序建模。在FUNSD数据集和大规模付款数据集上的实验证明,ROPE相对于现有的图卷积网络模型提高了8.4%的F1分数,特别是在单词标签和单词分组等文档实体提取任务中表现良好。
Jun, 2021
提出一种名为BROS(BERT Relying On Spatiality)的预训练语言模型,重点在于将文字和布局有效组合起来,通过对文档中文字的相对位置进行编码以学习二维空间中的文本语义和布局,并利用面积屏蔽策略从未标记文档进行优化训练。BROS表现出与其他方法相当甚至更好的性能,解决了两个实际的关键信息提取问题:减少文本顺序错误和使用较少的下游示例进行高效学习。
Aug, 2021
本论文提出了一个读取顺序检测系统,使用深度学习和基于 seq2seq 模型的 LayoutReader,对包含 500,000 份文档的 ReadingBank 数据库进行了测试,并提高了开源和商业 OCR 引擎的文本顺序识别能力。
Aug, 2021
本论文提出了一种名为XYLayoutLM的鲁棒的布局感知多模态网络,它可以从通过 Augmented XY Cut 生成的正确阅读顺序中捕获和利用丰富的布局信息,并且提出了一种扩展有条件位置编码模块来处理变长输入序列,同时从文本和视觉模态中提取局部布局信息生成位置编码,并在文档理解任务上取得了竞争性的结果。
Mar, 2022
我们提出了一种新的文档布局分析方法,即 Doc-GCN ,该方法通过构建图形来描述文档的固有特征并将这些信息应用于图卷积网络中。最终结果表明,我们的方法在三个常用的 DLA 数据集中取得了新的最佳结果。
Aug, 2022