HYTREL:基于超图的表格数据表示学习
本文提出了 TURL 框架,该框架利用预训练 / 微调方法,在无监督的情况下学习关系表的深度上下文化表示,并应用于各种任务中。通过结构感知的 Transformer 编码器建模关系表的行列结构,并引入了一种新的 Masked Entity Recovery 目标进行预训练。在 6 个不同的关系表理解任务中,TURL 广泛适用且相对于现有方法具有更好的表现。
Jun, 2020
通过自我学习目标函数和预训练语言模型(如 BERT)对表格和相关文本进行联合建模的现有工作可以提高涉及配对表格和文本的任务(例如回答关于表格的问题)的性能,但在没有任何相关文本的情况下处理表格的任务(例如填充缺失的单元格)时表现不佳。我们提出了一种简单的预训练目标(损坏单元格检测),该预训练目标只是从表格数据中学习,并且在一套基于表格的预测任务上达到了最先进的水平,从而超过了竞争方法。与其他方法不同,我们的模型(TABBIE)提供了所有表子结构(单元格、行和列)的嵌入,并且所需的计算时间也要少得多。我们对模型的学习单元格、列和行的表示进行了质量分析,结果表明它可以理解复杂的表语义和数字趋势。
May, 2021
本文研究如何将基于 transformer 的模型应用于工业级别的表格数据中的实体识别问题,并开发了一种专用的表格数据增强策略来提高性能,实验证明表格的归纳偏差对于 transformer-based 模型的收敛至关重要。
Sep, 2022
该研究论文提出了一种名为转移性表格变压器(TransTab)的新方法,该方法通过将表格中的每个样本(即行)转换为可推广的嵌入向量,然后应用堆叠的变压器进行特征编码,来学习来自多个表格的机器学习模型。该方法探讨了如何在训练和测试期间使用多个具有部分重叠列的表格进行机器学习模型的预测,并对预训练模型的性能进行了分析和比较。
May, 2022
本文主要介绍了一个改进型的 Seq2Seq 模型,可用于将多维表格转化为文本,并针对表的多个维度建模,并在 NBA 篮球比赛数据的基准数据集 ROTOWIRE 上进行了评估,效果明显。
Sep, 2019
通过 HGT 框架,利用异构图增强的大型语言模型来处理少样本的表格理解任务,并通过多任务预训练方案以及三个新颖多粒度自监督异构图预训练目标来处理复杂表格,实验证明了 HGT 的有效性,并在多个基准测试中胜过 SOTA。
Mar, 2024
本文提出了 PET 模型,通过超图与消息传递来增强目标数据表达,并融合标签和特征以及高阶特征交互来实现表格预测任务中的数据预测。实验验证了 PET 模型的优越性以及模型组件和功能增强能力。
Jun, 2022
通过提出 Tabula,使用语言模型结构的表格数据合成器,我们揭示了使用为自然语言处理设计的预训练语言模型在表格数据合成领域的内在局限性,并通过一种令人满意的基础模型开展了针对表格数据合成的专用基础模型的研发。此外,我们提出了一种令牌序列压缩策略,可显著减少训练时间同时保持合成数据的质量。实验证明,使用语言模型结构而不加载训练有素的模型权重可以获得更好的表格数据合成起始模型。此外,之前针对其他表格数据训练的 Tabula 模型可作为新的表格数据合成任务的优秀基础模型,而且该令牌序列压缩方法可大幅降低模型的训练时间。结果表明,Tabula 相较于当前基于 LLMs 的最先进算法而言,平均每个时期减少 46.2% 的训练时间,并始终获得更高的合成数据效用。
Oct, 2023
TabRet 是一种用于表格数据的可预训练的基于 Transformer 模型的模型。它通过用自动编码损失校准特征嵌入来调整特征嵌入,并在分类任务上获得最佳性能,预训练数据是公共卫生调查。
Mar, 2023