生成式表格预训练加强了表格预测模型
本文介绍了一种基于强化预训练的模型 ReasTAP,可以注入高级的表格推理能力,在多项任务上取得新的最先进性能和显著的改进。
Oct, 2022
本研究提出了一个名为 XTab 的跨表格预训练框架,使用自监督学习算法来提高多种数据集上的表格变换器的泛化性、学习速度和性能,并通过联邦学习解决了跨表不一致的挑战。
May, 2023
TABT5 是编码器 - 解码器模型,可以生成基于表格和文本输入的自然语言文本,结合表格特定的嵌入和预训练,成功地克服了编码器的限制,并在多个领域取得了最新的最佳结果。
Oct, 2022
该研究论文提出了一种名为转移性表格变压器(TransTab)的新方法,该方法通过将表格中的每个样本(即行)转换为可推广的嵌入向量,然后应用堆叠的变压器进行特征编码,来学习来自多个表格的机器学习模型。该方法探讨了如何在训练和测试期间使用多个具有部分重叠列的表格进行机器学习模型的预测,并对预训练模型的性能进行了分析和比较。
May, 2022
TP-BERTa 是一种专门用于表格数据预测的预训练语言模型,通过将数值特征值转换为离散的高维标记,并使用内部特征注意方法将特征值与相应的特征名称相结合,TP-BERTa 在典型的表格数据领域中在表格 DNN 中表现卓越,并与梯度提升决策树模型具备竞争力。
Mar, 2024
通过自我学习目标函数和预训练语言模型(如 BERT)对表格和相关文本进行联合建模的现有工作可以提高涉及配对表格和文本的任务(例如回答关于表格的问题)的性能,但在没有任何相关文本的情况下处理表格的任务(例如填充缺失的单元格)时表现不佳。我们提出了一种简单的预训练目标(损坏单元格检测),该预训练目标只是从表格数据中学习,并且在一套基于表格的预测任务上达到了最先进的水平,从而超过了竞争方法。与其他方法不同,我们的模型(TABBIE)提供了所有表子结构(单元格、行和列)的嵌入,并且所需的计算时间也要少得多。我们对模型的学习单元格、列和行的表示进行了质量分析,结果表明它可以理解复杂的表语义和数字趋势。
May, 2021
本文提出了 TAPEX,利用合成语料库学习神经 SQL 执行器来解决表格预训练中数据稀缺的挑战,并在四个基准数据集上实现了新的最先进结果。
Jul, 2021
TAPAS 是一种用于表格上回答自然语言问题的模型,它使用弱监督训练,不需要生成逻辑式,而是通过对表格中的单元格进行选择并可选择性地应用相应的聚合算子来预测表格的结果,并在三个语义分析数据集上取得了优异成绩。
Apr, 2020
该研究论文探讨了针对表格数据的交叉表预训练的关键研究挑战,并提出了一种名为 CT-BERT 的新型框架,同时引入了对比学习和表格建模的目标,通过广泛的实证结果证明 CT-BERT 在监督和自监督设置下显著优于之前的方法。
Jul, 2023