MMMar, 2019

结构化文档中的表格理解

TL;DR在复杂的商务文件中,本文研究了表格检测与提取,提出一种利用单模型提取表格中信息的方法,并使用基于单词框、位置嵌入、可训练文本特征和图形的全面页面表示来解决这个问题。我们建立了一个新的数据集,提供了多种基线方法和新的神经网络模型来解决表格识别问题,并详细分析了图卷积和自注意力对模型性能的影响。