图神经网络方法用于表格中的语义类型检测

Apr, 2024

图神经网络方法用于表格中的语义类型检测

Graph Neural Network Approach to Semantic Type Detection in Tables

Ehsan Hoseinzade, Ke Wang

TL;DR这项研究解决了在关系表中检测语义列类型的挑战，提出了一种使用图神经网络的新方法，既改进了预测准确度，又允许语言模型聚焦于不同关系表的信息，并在语义类型检测方面优于现有的算法。

Abstract

This study addresses the challenge of detecting semantic column types in relational tables, a key task in many real-world applications. While language models like BERT have improved prediction accuracy, their tok

semantic column types relational tables language models graph neural networks semantic type detection

发现论文，激发创造

基于图神经网络的表格数据深度学习上下文嵌入

本文提出了一种新型深度学习模型，使用图神经网络（GNN）—— 特别是交互网络（IN）进行情境嵌入，以应对以表格形式存在的异构数据和特征。该模型在五个公共数据集上的深度学习基准测试中表现优异，优于最近发表的研究结果，并在与增强树解决方案的比较中也取得了竞争结果。

Mar, 2023

用图神经网络理解 JSON 数据中的语义类型

我们提出了一种将语义类型预测问题扩展到 JSON 数据的方法，使用 JSON 路径来标记类型。我们使用图神经网络来理解 JSON 文档集合中的结构信息，并在多种情况下超过了现有模型的性能，展现了我们模型理解复杂 JSON 数据以及在 JSON 相关数据处理任务中的潜在用途。

Jul, 2023

学习表格数据的语义注释

本研究采用深度学习方法，通过利用表格的上下文语义特征和知识库查询算法，实现了对没有元数据的表格的列类型预测，不仅在单独的表格集上表现良好，转移学习到其他表格集也有良好的性能。

May, 2019

一个语义分层图神经网络用于文本分类

本文研究了基于图神经网络的文本分类任务，提出了一种新的分层图神经网络模型（HieGNN），其在词级别、句子级别和文档级别分别提取相应的信息。实验结果表明与几个基准方法相比，我们的模型能够从样本中获得更多有用的分类信息。

Sep, 2022

使用图神经网络重新思考表格识别

本文提出一种基于图网络架构的表格识别方法，在视觉特征提取方面融合了卷积神经网络的优势；实验证明该方法优于基准线方法。此外，为了解决大规模数据集问题，文中提出了一种合成数据集，并开源了数据集生成及图网络训练框架，以推进研究的可复制性。

May, 2019

语言和图神经网络模型的高效有效训练

本文提出了一种有效的框架，称为语言模型图神经网络 (LM-GNN)，通过分阶段的 BERT 模型微调来结合异构图结构与文本，以便在多项监督学习任务中实现节点和边分类以及链接预测，并在不同的数据集上评估了这个框架且在一个亚马逊搜索 - 购买 - 产品的应用中提供了有竞争力的结果。

Jun, 2022

ColNet: 嵌入 Web 表格的语义，预测列类型

本文提出了一个名为 ColNet 的神经网络列类型注释框架，它能够集成知识库推理和查找，自动训练卷积神经网络进行预测，不仅考虑了单元格内上下文语义，还从多个单元格中学习了列语义的局部特征，并在基于 DBPedia 和两个不同的 Web 表格数据集上进行了评估，并取得了比最先进方法更高的性能。

Nov, 2018

可解释的图神经网络用于表格数据

IGNNet 是一个解释性图神经网络，用于处理表格数据，通过表征学习的方式捕获特征交互，大规模的实证研究证明 IGNNet 与 XGBoost、Random Forests 和 TabNet 等最先进的机器学习算法在处理表格数据时表现相当，同时 IGNNet 的解释与特征的 Shapley 值一致而无需额外的计算开销。

Aug, 2023

TabularNet: 一种理解表格数据语义结构的神经网络架构

提出了一种名为 TabularNet 的新型神经网络结构，采用 CNN 模型来进行表格数据的空间编码，并且利用基于 WordNet 树的图构建方法来进行单元格之间复杂的关系编码，结果表明该方法有效提高了表格分类任务的精度.

Jun, 2021

利用图变换网络对复杂文档布局中的文本语义进行建模

本文提出了一种基于图形表示的模型，并演示了我们不仅可以跨文档检索语义相似的信息，而且我们生成的嵌入空间也捕获了有用的语义信息，类似于仅适用于文本序列的语言模型。

Feb, 2022