学习表格数据的语义注释

May, 2019

Learning Semantic Annotations for Tabular Data

Jiaoyan Chen, Ernesto Jimenez-Ruiz, Ian Horrocks, Charles Sutton

TL;DR本研究采用深度学习方法，通过利用表格的上下文语义特征和知识库查询算法，实现了对没有元数据的表格的列类型预测，不仅在单独的表格集上表现良好，转移学习到其他表格集也有良好的性能。

Abstract

The usefulness of tabular data such as web tables critically depends on understanding their semantics. This study focuses on column type prediction for tables without any meta data. Unlike traditional lexical mat

column type prediction tabular data deep learning contextual semantics knowledge base

发现论文，激发创造

ColNet: 嵌入 Web 表格的语义，预测列类型

本文提出了一个名为 ColNet 的神经网络列类型注释框架，它能够集成知识库推理和查找，自动训练卷积神经网络进行预测，不仅考虑了单元格内上下文语义，还从多个单元格中学习了列语义的局部特征，并在基于 DBPedia 和两个不同的 Web 表格数据集上进行了评估，并取得了比最先进方法更高的性能。

Nov, 2018

利用字符级卷积神经网络对表格数据集进行语义分类

该论文提出了一种基于字符级卷积神经网络的转移学习方法，用于语意分类表格数据，并开发了一个名为 SIMON 的工具包，它可以在自然语言处理中进行分类、垃圾邮件分类和社交媒体年龄预测等任务。

Jan, 2019

Tab2KG: 轻量级语义档案的语义表格解释

本文介绍了 Tab2KG，这是一种新的数据表语义解释方法，可以将具有以前看不见数据的表格自动推断其语义，并转换为语义数据图，而不需要通过实例查找。在多个真实世界数据集上的实验评估表明，Tab2KG 胜过现有的语义表解释基线。

Feb, 2023

KGLink：一种结合知识图谱和预训练语言模型的列类型注释方法

KGLink 是一种结合了 WikiData 知识图谱信息和预训练深度学习语言模型的方法，能有效地解决表格列注释中的类型粒度和有价值上下文缺失问题。

Jun, 2024

同调卷积神经网络

通过在稀疏的表格数据中利用拓扑约束网络表示结构，我们提出了一种新颖的深度学习架构，利用卷积提取空间信息，并通过网络拓扑的有限概念来确保数据导向、可解释性和可扩展性，在 18 个基准数据集上测试表明，我们的方法在这些具有挑战性的数据集上达到了最先进的性能。

Aug, 2023

使用预训练语言模型建模表格数据

通过引入预训练语言模型（PTM）和三个处理阶段（MT、MF、CF），提出了一种新的名为 PTab 的框架，以将预训练模型用于建模表格数据，并取得比现有技术更好的分类效果。

Sep, 2022

Table2Vec: 表格填充和检索的神经单词和实体嵌入

本文使用神经语言模型将表格数据嵌入向量空间，并将它们作为额外的语义相似性信号，应用于三种特定的表格相关任务：行填充、列填充和表检索。评估结果表明，表格嵌入可以显著提高现有基线模型的性能。

May, 2019

图神经网络方法用于表格中的语义类型检测

这项研究解决了在关系表中检测语义列类型的挑战，提出了一种使用图神经网络的新方法，既改进了预测准确度，又允许语言模型聚焦于不同关系表的信息，并在语义类型检测方面优于现有的算法。

Apr, 2024

TCN：用于 Web 表格解释的表卷积网络

本文提出一种基于表格卷积网络的关系表格表示学习方法，旨在有效获取短尾信息，充实知识图谱，并考虑从不同角度聚合多类型隐含连接的单元格内和跨表的语境信息，实验表明本方法在真实 Web 数据集上可以有效预测列类型和对列关系，大幅提升了预测准确率。

Feb, 2021

ClusterTabNet：用于表格检测和表格结构识别的有监督聚类方法

我们提出了一种新颖的基于深度学习的方法来对文档中的单词进行聚类，并应用于检测和识别 OCR 输出中的表格。我们将表的结构从底部向上解释为单词之间的关系图（属于同一行，列，标题以及同一张表），并使用 Transformer 编码器模型来预测其邻接矩阵。我们在 PubTables-1M 数据集以及 PubTabNet 和 FinTabNet 数据集上展示了我们方法的性能。与当前的最先进的检测方法如 DETR 和 Faster R-CNN 相比，我们的方法在精度上达到了类似或更好的结果，并且要求更小的模型。

Feb, 2024