TabVec:用于 Web 表格分类的表格向量
本文使用神经语言模型将表格数据嵌入向量空间,并将它们作为额外的语义相似性信号,应用于三种特定的表格相关任务:行填充、列填充和表检索。评估结果表明,表格嵌入可以显著提高现有基线模型的性能。
May, 2019
通过自我学习目标函数和预训练语言模型(如 BERT)对表格和相关文本进行联合建模的现有工作可以提高涉及配对表格和文本的任务(例如回答关于表格的问题)的性能,但在没有任何相关文本的情况下处理表格的任务(例如填充缺失的单元格)时表现不佳。我们提出了一种简单的预训练目标(损坏单元格检测),该预训练目标只是从表格数据中学习,并且在一套基于表格的预测任务上达到了最先进的水平,从而超过了竞争方法。与其他方法不同,我们的模型(TABBIE)提供了所有表子结构(单元格、行和列)的嵌入,并且所需的计算时间也要少得多。我们对模型的学习单元格、列和行的表示进行了质量分析,结果表明它可以理解复杂的表语义和数字趋势。
May, 2021
本研究采用深度学习方法,通过利用表格的上下文语义特征和知识库查询算法,实现了对没有元数据的表格的列类型预测,不仅在单独的表格集上表现良好,转移学习到其他表格集也有良好的性能。
May, 2019
该研究论文提出了一种名为转移性表格变压器(TransTab)的新方法,该方法通过将表格中的每个样本(即行)转换为可推广的嵌入向量,然后应用堆叠的变压器进行特征编码,来学习来自多个表格的机器学习模型。该方法探讨了如何在训练和测试期间使用多个具有部分重叠列的表格进行机器学习模型的预测,并对预训练模型的性能进行了分析和比较。
May, 2022
我们提出了一种新颖的基于深度学习的方法来对文档中的单词进行聚类, 并应用于检测和识别 OCR 输出中的表格。我们将表的结构从底部向上解释为单词之间的关系图(属于同一行,列,标题以及同一张表),并使用 Transformer 编码器模型来预测其邻接矩阵。我们在 PubTables-1M 数据集以及 PubTabNet 和 FinTabNet 数据集上展示了我们方法的性能。与当前的最先进的检测方法如 DETR 和 Faster R-CNN 相比,我们的方法在精度上达到了类似或更好的结果,并且要求更小的模型。
Feb, 2024
TabTransformer 是一个基于自注意力变换器 (Transformer) 的深度表格数据建模架构,可应用于监督和半监督学习。经过在 15 个公开数据集上的广泛实验,我们展示了 TabTransformer 在表格数据的深度学习方法中的超越和匹配效果。同时,我们演示了从 TabTransformer 学习的环境嵌入具有高度的鲁棒性,可用于噪声和丢失形式的数据特征,提供更好的可解释性。最后,对于半监督场景,我们开发了一种无监督的预训练过程来学习数据驱动的上下文嵌入,使 AUC 平均提升 2.1%。
Dec, 2020
本文研究如何将表格数据与知识库中的实体进行实体链接。通过引入一个名为 Tabular Entity Linking Lite (TELL) 的模型,可以在不依赖于查询目标知识库中事实的情况下,以常数内存使用量为代价获得与当今最先进的基于注意力机制的模型相当的结果。
Jul, 2022
本文介绍了一种无监督方法,通过学习嵌入式文档和单词向量,从未标记的文档数据集中检索出预定义主题的文档,并可用于多类文档分类,使用 Lbl2Vec 工具可方便地复制此方法。
Oct, 2022
本研究提出了一个基于编码器 - 解码器结构的深度学习模型,用于将表格图像转换为 HTML 代码,并使用一种新的基于 Tree-Edit-Distance 相似度(TEDS)度量方法实现表格识别,实验结果表明所提出的模型在复杂表格识别方面具有优秀的表现。
Nov, 2019
本文提出了 SuperTML 方法,通过采用两维度嵌入超级字符的思想,将表格数据进行二维嵌入,然后使用 fine-tuned 二维 CNN 模型来解决分类问题。实验结果表明,该方法在大型和小型数据集上都取得了最先进的结果。
Feb, 2019