PARAGRAPH2GRAPH: 基于 GNN 的布局段落分析框架
本文提出了一种有效的框架,称为语言模型图神经网络 (LM-GNN),通过分阶段的 BERT 模型微调来结合异构图结构与文本,以便在多项监督学习任务中实现节点和边分类以及链接预测,并在不同的数据集上评估了这个框架且在一个亚马逊搜索 - 购买 - 产品的应用中提供了有竞争力的结果。
Jun, 2022
本文提出了一种基于图形表示的模型,并演示了我们不仅可以跨文档检索语义相似的信息,而且我们生成的嵌入空间也捕获了有用的语义信息,类似于仅适用于文本序列的语言模型。
Feb, 2022
我们提出了 GraphLayoutLM 模型,它利用布局结构图的建模将文档布局知识注入模型,使得模型能够理解文本元素的空间排列,以提高文档的理解能力,并在 FUNSD、XFUND 和 CORD 等基准测试中取得了最先进的结果。
Aug, 2023
提出了一种新的基于图神经网络的模型,通过全局参数共享建立每个输入文本的图形而不是整个语料库的单个图形,这种方法支持在线测试,同时提取更多的本地特征和显著降低边缘数量以及内存消耗,在多个文本分类数据集上性能优于现有模型。
Oct, 2019
这篇研究文章介绍了一种基于 GNN 模型的文档理解框架 ——Doc2Graph,可用于处理不同类型文档的不同任务,如发票布局分析及表格识别等,旨在提高信息提取的效率。
Aug, 2022
我们提出了一种新的文档布局分析方法,即 Doc-GCN ,该方法通过构建图形来描述文档的固有特征并将这些信息应用于图卷积网络中。最终结果表明,我们的方法在三个常用的 DLA 数据集中取得了新的最佳结果。
Aug, 2022
本文研究了基于图神经网络的文本分类任务,提出了一种新的分层图神经网络模型(HieGNN),其在词级别、句子级别和文档级别分别提取相应的信息。实验结果表明与几个基准方法相比,我们的模型能够从样本中获得更多有用的分类信息。
Sep, 2022
本文提出了一种新的方法,使用空间图卷积网络(GCN)应用于 OCR 文本框,在文档图像中识别段落。通过线路分割和线路聚类两个步骤,从 OCR 结果的行中提取段落。每个步骤使用从边界框建立的贝塔骨架图,其中图边提供了有利于图卷积操作的高效支持。仅使用纯布局输入特征,GCN 模型大小比基于 R-CNN 的模型小 3~4 个数量级,同时在 PubLayNet 和其他数据集上实现可比较或更好的准确性。此外,GCN 模型在从合成训练数据到真实世界图像的转换,以及针对可变文档样式的适应性方面表现良好。
Jan, 2021
本文介绍了 Graformer,一种新颖的基于 Transformer 的编码器 - 解码器体系结构,用于图形到文本的生成。使用我们新颖的图形自我关注,节点的编码依赖于输入图中的所有节点,促进了全局模式的检测。通过学习不同关注头的节点之间的权重,Graformer 实现了不同的连接视图,从而在 AGENDA 和 WebNLG 这两个流行的图形到文本生成基准测试中实现强大的性能。
Jun, 2020
本文提出了一种基于文本图的表示学习方法 GraphFormers,该方法将语言模型的 Transformer 块与图神经网络嵌套在一起,将文本编码和图聚合融合到迭代的工作流程中,从全局视角准确地理解每个节点的语义。通过在三个大规模基准数据集上的广泛评估,GraphFormers 比 SOTA 基准模型具有相当的运行效率。
May, 2021