Table2Vec: 表格填充和检索的神经单词和实体嵌入
本文研究如何将基于 transformer 的模型应用于工业级别的表格数据中的实体识别问题,并开发了一种专用的表格数据增强策略来提高性能,实验证明表格的归纳偏差对于 transformer-based 模型的收敛至关重要。
Sep, 2022
通过自我学习目标函数和预训练语言模型(如 BERT)对表格和相关文本进行联合建模的现有工作可以提高涉及配对表格和文本的任务(例如回答关于表格的问题)的性能,但在没有任何相关文本的情况下处理表格的任务(例如填充缺失的单元格)时表现不佳。我们提出了一种简单的预训练目标(损坏单元格检测),该预训练目标只是从表格数据中学习,并且在一套基于表格的预测任务上达到了最先进的水平,从而超过了竞争方法。与其他方法不同,我们的模型(TABBIE)提供了所有表子结构(单元格、行和列)的嵌入,并且所需的计算时间也要少得多。我们对模型的学习单元格、列和行的表示进行了质量分析,结果表明它可以理解复杂的表语义和数字趋势。
May, 2021
本研究采用深度学习方法,通过利用表格的上下文语义特征和知识库查询算法,实现了对没有元数据的表格的列类型预测,不仅在单独的表格集上表现良好,转移学习到其他表格集也有良好的性能。
May, 2019
为了弥补现有评估数据集的不足,本研究构建了一个更具挑战性的数据集,并引入了一种新颖的问题,用于解决实体链接任务,即对单元格中的命名实体进行识别。最后,我们提出了一个提示框架,以评估新开发的大型语言模型在这一新的表格解释任务上的表现。
Mar, 2024
该研究为电子表格程序配备了智能辅助功能,并聚焦于实体焦点表,介绍了填充行和填充列的两种特定任务,并开发了生成概率模型。经过实验评估,结果表明,该方法胜过文献中的现有方法。
Aug, 2017
本文研究如何将表格数据与知识库中的实体进行实体链接。通过引入一个名为 Tabular Entity Linking Lite (TELL) 的模型,可以在不依赖于查询目标知识库中事实的情况下,以常数内存使用量为代价获得与当今最先进的基于注意力机制的模型相当的结果。
Jul, 2022
本文提出了一个名为 ColNet 的神经网络列类型注释框架,它能够集成知识库推理和查找,自动训练卷积神经网络进行预测,不仅考虑了单元格内上下文语义,还从多个单元格中学习了列语义的局部特征,并在基于 DBPedia 和两个不同的 Web 表格数据集上进行了评估,并取得了比最先进方法更高的性能。
Nov, 2018
本文提出了 SuperTML 方法,通过采用两维度嵌入超级字符的思想,将表格数据进行二维嵌入,然后使用 fine-tuned 二维 CNN 模型来解决分类问题。实验结果表明,该方法在大型和小型数据集上都取得了最先进的结果。
Feb, 2019
本文提出了一种处理同时在文本和表格中找到答案的问答模型,使用多模态数据集及向量嵌入模型进一步提高检索性能,其中 tri-encoders 模型的检索性能较 bi-encoders 模型更佳。
Aug, 2021