May, 2024

GeoContrastNet:用于语言无关文档理解的对比键 - 值边缘学习

TL;DRGeoContrastNet 是一个语言不可知的框架,通过将对比学习目标与图注意力网络(GATs)相结合,强调几何特征的重要作用,实现了结构化文档理解(DU)。我们提出了一种新的方法,将几何边缘特征与视觉特征结合在一个整体的基于 GAT 的框架中,在链接预测和语义实体识别性能方面展示了有希望的结果。我们的研究结果表明,将几何特征和视觉特征相结合,可以匹配那些在性能准确性和效率上严重依赖光学字符识别(OCR)特征的大型 DU 模型的能力。这种方法强调了页面的半结构化布局中命名文本实体之间的关系布局信息的重要性。具体而言,我们的结果突出了该模型在识别 FUNSD 数据集中的表单中的键 - 值关系以及在 RVLCDIP 业务发票的表格结构布局中发现空间关系的能力。我们的代码和预训练模型将在我们的官方 GitHub 上提供。