HYTREL：基于超图的表格数据表示学习

Jul, 2023

HYTREL：基于超图的表格数据表示学习

HYTREL: Hypergraph-enhanced Tabular Data Representation Learning

Pei Chen, Soumajyoti Sarkar, Leonard Lausen, Balasubramaniam Srinivasan, Sheng Zha...

TL;DR提出了一种名为 HYTREL 的表格语言模型，它利用超图捕捉表格数据的置换不变性和三种其他结构属性，从而在最小预训练条件下优于其他竞争基线，并可以将表格结构整合到其表示中。

Abstract

language models pretrained on large collections of tabular data have demonstrated their effectiveness in several downstream tasks. However, many of these models do not take into account the row/column

language models tabular data hytrel permutation invariances hypergraphs

发现论文，激发创造

通过表示学习实现表格理解

本文提出了 TURL 框架，该框架利用预训练 / 微调方法，在无监督的情况下学习关系表的深度上下文化表示，并应用于各种任务中。通过结构感知的 Transformer 编码器建模关系表的行列结构，并引入了一种新的 Masked Entity Recovery 目标进行预训练。在 6 个不同的关系表理解任务中，TURL 广泛适用且相对于现有方法具有更好的表现。

Jun, 2020

TABBIE：表格数据的预训练表示

通过自我学习目标函数和预训练语言模型（如 BERT）对表格和相关文本进行联合建模的现有工作可以提高涉及配对表格和文本的任务（例如回答关于表格的问题）的性能，但在没有任何相关文本的情况下处理表格的任务（例如填充缺失的单元格）时表现不佳。我们提出了一种简单的预训练目标（损坏单元格检测），该预训练目标只是从表格数据中学习，并且在一套基于表格的预测任务上达到了最先进的水平，从而超过了竞争方法。与其他方法不同，我们的模型（TABBIE）提供了所有表子结构（单元格、行和列）的嵌入，并且所需的计算时间也要少得多。我们对模型的学习单元格、列和行的表示进行了质量分析，结果表明它可以理解复杂的表语义和数字趋势。

May, 2021

使用表格语言模型在工业表格中进行命名实体识别

本文研究如何将基于 transformer 的模型应用于工业级别的表格数据中的实体识别问题，并开发了一种专用的表格数据增强策略来提高性能，实验证明表格的归纳偏差对于 transformer-based 模型的收敛至关重要。

Sep, 2022

使用多粒度图表示学习检索复杂表格

提出了一种基于图的表格检索框架，该框架可以通过学习多颗粒度图表表示来处理复杂的布局，包括表头嵌套，进而实现自然语言表检索问题的泛化。

May, 2021

TransTab: 在表格间学习可迁移的表格变换器

该研究论文提出了一种名为转移性表格变压器（TransTab）的新方法，该方法通过将表格中的每个样本（即行）转换为可推广的嵌入向量，然后应用堆叠的变压器进行特征编码，来学习来自多个表格的机器学习模型。该方法探讨了如何在训练和测试期间使用多个具有部分重叠列的表格进行机器学习模型的预测，并对预训练模型的性能进行了分析和比较。

May, 2022

三维有效分层编码表格生成文本

本文主要介绍了一个改进型的 Seq2Seq 模型，可用于将多维表格转化为文本，并针对表的多个维度建模，并在 NBA 篮球比赛数据的基准数据集 ROTOWIRE 上进行了评估，效果明显。

Sep, 2019

HGT: 利用异构图增强的大型语言模型进行少样本复杂表格理解

通过 HGT 框架，利用异构图增强的大型语言模型来处理少样本的表格理解任务，并通过多任务预训练方案以及三个新颖多粒度自监督异构图预训练目标来处理复杂表格，实验证明了 HGT 的有效性，并在多个基准测试中胜过 SOTA。

Mar, 2024

通过邻域传播学习表格数据的增强表示

本文提出了 PET 模型，通过超图与消息传递来增强目标数据表达，并融合标签和特征以及高阶特征交互来实现表格预测任务中的数据预测。实验验证了 PET 模型的优越性以及模型组件和功能增强能力。

Jun, 2022

TabuLa: 利用语言模型进行表格数据合成

通过提出 Tabula，使用语言模型结构的表格数据合成器，我们揭示了使用为自然语言处理设计的预训练语言模型在表格数据合成领域的内在局限性，并通过一种令人满意的基础模型开展了针对表格数据合成的专用基础模型的研发。此外，我们提出了一种令牌序列压缩策略，可显著减少训练时间同时保持合成数据的质量。实验证明，使用语言模型结构而不加载训练有素的模型权重可以获得更好的表格数据合成起始模型。此外，之前针对其他表格数据训练的 Tabula 模型可作为新的表格数据合成任务的优秀基础模型，而且该令牌序列压缩方法可大幅降低模型的训练时间。结果表明，Tabula 相较于当前基于 LLMs 的最先进算法而言，平均每个时期减少 46.2% 的训练时间，并始终获得更高的合成数据效用。

Oct, 2023

TabRet：针对未知列预训练基于 Transformer 的表格模型

TabRet 是一种用于表格数据的可预训练的基于 Transformer 模型的模型。它通过用自动编码损失校准特征嵌入来调整特征嵌入，并在分类任务上获得最佳性能，预训练数据是公共卫生调查。

Mar, 2023