Table2Vec: 表格填充和检索的神经单词和实体嵌入

SIGIRMay, 2019

Table2Vec: 表格填充和检索的神经单词和实体嵌入

Table2Vec: Neural Word and Entity Embeddings for Table Population and Retrieval

Li Deng, Shuo Zhang, Krisztian Balog

TL;DR本文使用神经语言模型将表格数据嵌入向量空间，并将它们作为额外的语义相似性信号，应用于三种特定的表格相关任务：行填充、列填充和表检索。评估结果表明，表格嵌入可以显著提高现有基线模型的性能。

Abstract

Tables contain valuable knowledge in a structured form. We employ neural language modeling approaches to embed tabular data into vector spaces. Specifically, we consider different table elements, such caption, column headings, and cells, for training word and entity embeddings. These embeddings are then utilized in three particular table-related tasks,

neural language modeling table embedding semantic similarity row population column population

发现论文，激发创造

TabVec：用于 Web 表格分类的表格向量

TabVec 是一种无监督的方法，将表格嵌入向量空间以实现对表格的分类，并在没有领域注释的情况下显著提高准确性。

Feb, 2018

使用表格语言模型在工业表格中进行命名实体识别

本文研究如何将基于 transformer 的模型应用于工业级别的表格数据中的实体识别问题，并开发了一种专用的表格数据增强策略来提高性能，实验证明表格的归纳偏差对于 transformer-based 模型的收敛至关重要。

Sep, 2022

TABBIE：表格数据的预训练表示

通过自我学习目标函数和预训练语言模型（如 BERT）对表格和相关文本进行联合建模的现有工作可以提高涉及配对表格和文本的任务（例如回答关于表格的问题）的性能，但在没有任何相关文本的情况下处理表格的任务（例如填充缺失的单元格）时表现不佳。我们提出了一种简单的预训练目标（损坏单元格检测），该预训练目标只是从表格数据中学习，并且在一套基于表格的预测任务上达到了最先进的水平，从而超过了竞争方法。与其他方法不同，我们的模型（TABBIE）提供了所有表子结构（单元格、行和列）的嵌入，并且所需的计算时间也要少得多。我们对模型的学习单元格、列和行的表示进行了质量分析，结果表明它可以理解复杂的表语义和数字趋势。

May, 2021

学习表格数据的语义注释

本研究采用深度学习方法，通过利用表格的上下文语义特征和知识库查询算法，实现了对没有元数据的表格的列类型预测，不仅在单独的表格集上表现良好，转移学习到其他表格集也有良好的性能。

May, 2019

Wiki-TabNER：通过命名实体识别推进表格解释

为了弥补现有评估数据集的不足，本研究构建了一个更具挑战性的数据集，并引入了一种新颖的问题，用于解决实体链接任务，即对单元格中的命名实体进行识别。最后，我们提出了一个提示框架，以评估新开发的大型语言模型在这一新的表格解释任务上的表现。

Mar, 2024

EntiTables：面向实体的表格的智能辅助

该研究为电子表格程序配备了智能辅助功能，并聚焦于实体焦点表，介绍了填充行和填充列的两种特定任务，并开发了生成概率模型。经过实验评估，结果表明，该方法胜过文献中的现有方法。

Aug, 2017

表格数据中的实体链接需要正确的注意

本文研究如何将表格数据与知识库中的实体进行实体链接。通过引入一个名为 Tabular Entity Linking Lite (TELL) 的模型，可以在不依赖于查询目标知识库中事实的情况下，以常数内存使用量为代价获得与当今最先进的基于注意力机制的模型相当的结果。

Jul, 2022

ColNet: 嵌入 Web 表格的语义，预测列类型

本文提出了一个名为 ColNet 的神经网络列类型注释框架，它能够集成知识库推理和查找，自动训练卷积神经网络进行预测，不仅考虑了单元格内上下文语义，还从多个单元格中学习了列语义的局部特征，并在基于 DBPedia 和两个不同的 Web 表格数据集上进行了评估，并取得了比最先进方法更高的性能。

Nov, 2018

SuperTML：用于结构化表格数据的二维词嵌入

本文提出了 SuperTML 方法，通过采用两维度嵌入超级字符的思想，将表格数据进行二维嵌入，然后使用 fine-tuned 二维 CNN 模型来解决分类问题。实验结果表明，该方法在大型和小型数据集上都取得了最先进的结果。

Feb, 2019

使用三元编码模型的多模态表格和文本检索

本文提出了一种处理同时在文本和表格中找到答案的问答模型，使用多模态数据集及向量嵌入模型进一步提高检索性能，其中 tri-encoders 模型的检索性能较 bi-encoders 模型更佳。

Aug, 2021