TAPAS 是一种用于表格上回答自然语言问题的模型,它使用弱监督训练,不需要生成逻辑式,而是通过对表格中的单元格进行选择并可选择性地应用相应的聚合算子来预测表格的结果,并在三个语义分析数据集上取得了优异成绩。
Apr, 2020
本文介绍了一种基于强化预训练的模型 ReasTAP,可以注入高级的表格推理能力,在多项任务上取得新的最先进性能和显著的改进。
Oct, 2022
该论文提出了 TapTap,利用表格预训练生成高质量的合成表格,支持各种基于表格数据的应用,通过广泛的实验验证其在 12 个数据集上的性能大大优于 16 种基线,并可轻松与各种基础模型相结合,是合成表格数据生成发展中的一个里程碑。
May, 2023
GraPPa 是一种有效的预训练方法,用于表语义分析,学习了文本和表格数据的联合表示中的组合归纳偏置。它通过从现有文本到 SQL 数据集中归纳出的同步上下文无关文法(SCFG)构造高质量表的综合问题 - SQL 对,使用一种新的文本模式链接目标在合成数据上进行模型预训练,并包括遮蔽语言建模以引导预训练过程。GraPPa 在四个流行的全监督和弱监督表格语义解析基准上都显着优于 RoBERTa-large,建立了新的所有最先进的结果。
Sep, 2020
本研究提出了一个名为 XTab 的跨表格预训练框架,使用自监督学习算法来提高多种数据集上的表格变换器的泛化性、学习速度和性能,并通过联邦学习解决了跨表不一致的挑战。
本文旨在开发一种简单的基于表格的问答模型,采用全能预训练方法结合自然和合成数据,实现问题与表格的对齐和多元素复杂推理,实验证明该模型在少量和全量数据上性能卓越,在 WikiTableQuestions 数据集上成为新的最优模型,讨论分析自然数据和合成数据的不同特点,为全能预训练提供未来方向。
Jul, 2022
本研究提出了一种新的零样本文本到 SQL 任务中的方法,该方法不依赖于任何额外的手动注释,并在 WikiSQL 数据集和 ESQL 数据集上展开了广泛实验,相较于使用相同预训练模型的现有方法,我们的方法在两个数据集上都取得了显著的改进,特别是在零样本子集上,我们的方法进一步提高了改进。
Sep, 2021
该论文提出了一种在语言模型中加入(半)结构化表格信息的方法,并在语义解析任务上取得了新的最佳结果。
May, 2020
SQLova 是第一个在 WikiSQL 数据集中实现人类性能的自然语言到 SQL 模型,利用了 BERT 通过有效的表格语境方法,结合了多种流行的 NL2SQL 方法,在逻辑形式和执行准确度方面分别优于先前的最新技术水平 8.2%和 2.5%。我们特别注意到,在使用这样的大型预训练模型时,BERT 与序列到序列解码器会导致性能不佳,这表明设计的重要性。我们还对数据集和我们的模型进行了全面的分析,这可能有助于设计未来的 NL2SQL 数据集和模型。我们特别展示了我们模型的表现已经接近 WikiSQL 的上限,在其中我们观察到大部分评估错误是由于错误的注释,而我们的模型在执行准确度方面已经超过人类表现 1.3%。
Feb, 2019
TABT5 是编码器 - 解码器模型,可以生成基于表格和文本输入的自然语言文本,结合表格特定的嵌入和预训练,成功地克服了编码器的限制,并在多个领域取得了最新的最佳结果。