May, 2021

TABBIE:表格数据的预训练表示

TL;DR通过自我学习目标函数和预训练语言模型(如 BERT)对表格和相关文本进行联合建模的现有工作可以提高涉及配对表格和文本的任务(例如回答关于表格的问题)的性能,但在没有任何相关文本的情况下处理表格的任务(例如填充缺失的单元格)时表现不佳。我们提出了一种简单的预训练目标(损坏单元格检测),该预训练目标只是从表格数据中学习,并且在一套基于表格的预测任务上达到了最先进的水平,从而超过了竞争方法。与其他方法不同,我们的模型(TABBIE)提供了所有表子结构(单元格、行和列)的嵌入,并且所需的计算时间也要少得多。我们对模型的学习单元格、列和行的表示进行了质量分析,结果表明它可以理解复杂的表语义和数字趋势。