KDDOct, 2020

TUTA:树形 Transformer 用于通用结构表预训练

TL;DR本文提出 TUTA,一种有助于理解结构化表格的统一预训练架构,通过强化 transformers 模型的三种新型结构感知机制,采用一个二维坐标树结构来描述表格的空间和层次信息,并采用基于树的注意力和位置嵌入来更好地捕捉表格的空间和层次信息,并通过三个渐进式的预训练目标进行预训练,将 TUTA 应用于电子表格和网络表格预训练,得到了最新的表格类型分类和单元格类型分类成效。