使用预训练语言模型建模表格数据
该研究论文探讨了针对表格数据的交叉表预训练的关键研究挑战,并提出了一种名为 CT-BERT 的新型框架,同时引入了对比学习和表格建模的目标,通过广泛的实证结果证明 CT-BERT 在监督和自监督设置下显著优于之前的方法。
Jul, 2023
TabTransformer 是一个基于自注意力变换器 (Transformer) 的深度表格数据建模架构,可应用于监督和半监督学习。经过在 15 个公开数据集上的广泛实验,我们展示了 TabTransformer 在表格数据的深度学习方法中的超越和匹配效果。同时,我们演示了从 TabTransformer 学习的环境嵌入具有高度的鲁棒性,可用于噪声和丢失形式的数据特征,提供更好的可解释性。最后,对于半监督场景,我们开发了一种无监督的预训练过程来学习数据驱动的上下文嵌入,使 AUC 平均提升 2.1%。
Dec, 2020
通过提出 Tabula,使用语言模型结构的表格数据合成器,我们揭示了使用为自然语言处理设计的预训练语言模型在表格数据合成领域的内在局限性,并通过一种令人满意的基础模型开展了针对表格数据合成的专用基础模型的研发。此外,我们提出了一种令牌序列压缩策略,可显著减少训练时间同时保持合成数据的质量。实验证明,使用语言模型结构而不加载训练有素的模型权重可以获得更好的表格数据合成起始模型。此外,之前针对其他表格数据训练的 Tabula 模型可作为新的表格数据合成任务的优秀基础模型,而且该令牌序列压缩方法可大幅降低模型的训练时间。结果表明,Tabula 相较于当前基于 LLMs 的最先进算法而言,平均每个时期减少 46.2% 的训练时间,并始终获得更高的合成数据效用。
Oct, 2023
本文提出了 Tabular Foundation Models (TabFMs),通过在广泛的表格数据集上使用预训练的大型语言模型 (LLM) 并进行微调,实现了对表格数据具有深刻理解和普适能力的目标。TabFMs 在指导性任务(如零样本和上下文推理)方面具有显著优势,并且在某些情况下甚至超越了著名但神秘的闭源 LLMs,如 GPT-4。此外,当仅有有限的数据进行微调时,我们的模型表现出了出色的效率和竞争性表现。最后,我们也探讨了 TabFM 的局限性和潜在机会,旨在激发和促进未来开发更强大的 TabFMs 的研究。
Oct, 2023
本研究提出了一个名为 XTab 的跨表格预训练框架,使用自监督学习算法来提高多种数据集上的表格变换器的泛化性、学习速度和性能,并通过联邦学习解决了跨表不一致的挑战。
May, 2023
通过自我学习目标函数和预训练语言模型(如 BERT)对表格和相关文本进行联合建模的现有工作可以提高涉及配对表格和文本的任务(例如回答关于表格的问题)的性能,但在没有任何相关文本的情况下处理表格的任务(例如填充缺失的单元格)时表现不佳。我们提出了一种简单的预训练目标(损坏单元格检测),该预训练目标只是从表格数据中学习,并且在一套基于表格的预测任务上达到了最先进的水平,从而超过了竞争方法。与其他方法不同,我们的模型(TABBIE)提供了所有表子结构(单元格、行和列)的嵌入,并且所需的计算时间也要少得多。我们对模型的学习单元格、列和行的表示进行了质量分析,结果表明它可以理解复杂的表语义和数字趋势。
May, 2021
本文使用预训练的 BERT 模型来处理表格检索任务,研究如何编码表格内容以及如何将其他文献中的特征与 BERT 模型联合训练,实验表明这一方法在公共数据集上表现卓越。
May, 2020