学习数据合成以用于语义解析
本研究探讨了使用预训练去噪序列到序列模型(即 BART)生成神经语义分析的合成数据的可能性,并使用辅助解析器(AP)过滤生成的数据,结果表明这一方法在导航领域的 Facebook TOP 数据集上具有潜力。
Nov, 2020
为了弥合自然语言问题和知识库之间的词汇句法差距,本文提出了一种基于概率上下文无关语法抽样生成语义解析问题的语法模型,实现了自然语言问题向知识库查询的转换,提高了语义解析性能。
Jan, 2016
通过 Generation-Augmented Pre-training 来解决现有通用语言模型在文本与 SQL 语义解析器中存在的问题,并在 SPIDER 和 CRITERIA-TO-SQL 基准测试中获得了新的最先进的结果。
Dec, 2020
本文通过在最大手工标注语义解析数据集 WikiSQL 上展示问题生成是一种有效的半监督学习方法,使我们能够用百分之三十的监督训练数据来学习最先进的神经网络语义解析器,并发现语义解析器的准确性和训练数据量之间存在对数关系。
Aug, 2018
该文研究了文本到 SQL 的组成归纳泛化问题,通过提出新的标准数据集 CoSQL-CG 和 SParC-CG,提出了一种基于 p-align 的改进方法,并证明了其有效性。
May, 2023
本文介绍了如何通过分句和 SQL 子句的注释构造一个新的数据集 Spider-SS,然后将 sub-sentences 不同组合构成一个新的数据集 Spider-CG,用于测试模型的组成泛化能力。实验表明,现有模型在 Spider-CG 上表现出显著的性能下降,我们改进了一些最先进的模型在 Spider-SS 上进行训练,提高了泛化性能。
May, 2022
GraPPa 是一种有效的预训练方法,用于表语义分析,学习了文本和表格数据的联合表示中的组合归纳偏置。它通过从现有文本到 SQL 数据集中归纳出的同步上下文无关文法(SCFG)构造高质量表的综合问题 - SQL 对,使用一种新的文本模式链接目标在合成数据上进行模型预训练,并包括遮蔽语言建模以引导预训练过程。GraPPa 在四个流行的全监督和弱监督表格语义解析基准上都显着优于 RoBERTa-large,建立了新的所有最先进的结果。
Sep, 2020
利用生成模型将自然语言问题转换成 SQL 查询,并通过考虑表格结构和 SQL 语法来提高查询的可执行性和准确性。在 WikiSQL 数据集上进行实验,将执行准确率从 69.0%提高到 74.4%。
Apr, 2018
本文提出了一种新型神经体系结构,它由语法模型支持,旨在将自然语言描述解析为基于 Python 等通用编程语言的源代码,并将其显式地捕获为先验知识,以实现从自然语言描述生成复杂程序的规模化。实验证明,这是一种有效缩放到语言描述的复杂程序的方法,取得了优于以前代码生成和语义解析方法的最新成果。
Apr, 2017