本文提出了一个名为 ColNet 的神经网络列类型注释框架,它能够集成知识库推理和查找,自动训练卷积神经网络进行预测,不仅考虑了单元格内上下文语义,还从多个单元格中学习了列语义的局部特征,并在基于 DBPedia 和两个不同的 Web 表格数据集上进行了评估,并取得了比最先进方法更高的性能。
Nov, 2018
该论文提出了一种基于字符级卷积神经网络的转移学习方法,用于语意分类表格数据,并开发了一个名为 SIMON 的工具包,它可以在自然语言处理中进行分类、垃圾邮件分类和社交媒体年龄预测等任务。
Jan, 2019
本文介绍了 Tab2KG,这是一种新的数据表语义解释方法,可以将具有以前看不见数据的表格自动推断其语义,并转换为语义数据图,而不需要通过实例查找。在多个真实世界数据集上的实验评估表明,Tab2KG 胜过现有的语义表解释基线。
Feb, 2023
KGLink 是一种结合了 WikiData 知识图谱信息和预训练深度学习语言模型的方法,能有效地解决表格列注释中的类型粒度和有价值上下文缺失问题。
Jun, 2024
通过在稀疏的表格数据中利用拓扑约束网络表示结构,我们提出了一种新颖的深度学习架构,利用卷积提取空间信息,并通过网络拓扑的有限概念来确保数据导向、可解释性和可扩展性,在 18 个基准数据集上测试表明,我们的方法在这些具有挑战性的数据集上达到了最先进的性能。
Aug, 2023
通过引入预训练语言模型(PTM)和三个处理阶段(MT、MF、CF),提出了一种新的名为 PTab 的框架,以将预训练模型用于建模表格数据,并取得比现有技术更好的分类效果。
Sep, 2022
本文使用神经语言模型将表格数据嵌入向量空间,并将它们作为额外的语义相似性信号,应用于三种特定的表格相关任务:行填充、列填充和表检索。评估结果表明,表格嵌入可以显著提高现有基线模型的性能。
May, 2019
这项研究解决了在关系表中检测语义列类型的挑战,提出了一种使用图神经网络的新方法,既改进了预测准确度,又允许语言模型聚焦于不同关系表的信息,并在语义类型检测方面优于现有的算法。
Apr, 2024
本文提出一种基于表格卷积网络的关系表格表示学习方法,旨在有效获取短尾信息,充实知识图谱,并考虑从不同角度聚合多类型隐含连接的单元格内和跨表的语境信息,实验表明本方法在真实 Web 数据集上可以有效预测列类型和对列关系,大幅提升了预测准确率。
Feb, 2021
我们提出了一种新颖的基于深度学习的方法来对文档中的单词进行聚类, 并应用于检测和识别 OCR 输出中的表格。我们将表的结构从底部向上解释为单词之间的关系图(属于同一行,列,标题以及同一张表),并使用 Transformer 编码器模型来预测其邻接矩阵。我们在 PubTables-1M 数据集以及 PubTabNet 和 FinTabNet 数据集上展示了我们方法的性能。与当前的最先进的检测方法如 DETR 和 Faster R-CNN 相比,我们的方法在精度上达到了类似或更好的结果,并且要求更小的模型。
Feb, 2024