学习数据合成以用于语义解析

ACLApr, 2021

Learning to Synthesize Data for Semantic Parsing

Bailin Wang, Wenpeng Yin, Xi Victoria Lin, Caiming Xiong

TL;DR本篇论文提出了一种生成模型，该模型具有模拟编程语言的组合结构的 PCFG 模型和将编程转化为语句的 BART 模型，能够有效且高效地从现有的数据中学习，并且能够探索多样化的未知数据，通过在 GeoQuery 和 Spider 标准基准测试中的实验结果表明，该模型合成的数据可以大大帮助语义解析器实现更好的组合性和领域泛化。

Abstract

Synthesizing data for semantic parsing has gained increasing attention recently. However, most methods require handcrafted (high-precision) rules in their generative process, hindering the exploration of diverse unseen data. In this work, we propose a →

semantic parsing generative model pcfg bart data synthesis

发现论文，激发创造

利用层次表示生成面向任务的语义分析合成数据

本研究探讨了使用预训练去噪序列到序列模型（即 BART）生成神经语义分析的合成数据的可能性，并使用辅助解析器（AP）过滤生成的数据，结果表明这一方法在导航领域的 Facebook TOP 数据集上具有潜力。

Nov, 2020

基于潜变量 PCFG 的语义分析生成改写

为了弥合自然语言问题和知识库之间的词汇句法差距，本文提出了一种基于概率上下文无关语法抽样生成语义解析问题的语法模型，实现了自然语言问题向知识库查询的转换，提高了语义解析性能。

Jan, 2016

系统化综合的组合式程序生成

给定一篇研究论文，通过训练神经符号结构的组合程序生成器（CPG），实现少样本学习和按长度生产序列到序列语言任务的通用性。

Sep, 2023

生成增强预训练用于语义解析的上下文表示学习

通过 Generation-Augmented Pre-training 来解决现有通用语言模型在文本与 SQL 语义解析器中存在的问题，并在 SPIDER 和 CRITERIA-TO-SQL 基准测试中获得了新的最先进的结果。

Dec, 2020

从 SQL 查询中生成问题改善了神经语义解析

本文通过在最大手工标注语义解析数据集 WikiSQL 上展示问题生成是一种有效的半监督学习方法，使我们能够用百分之三十的监督训练数据来学习最先进的神经网络语义解析器，并发现语义解析器的准确性和训练数据量之间存在对数关系。

Aug, 2018

探索上下文依赖文本到 SQL 解析中的组合泛化

该文研究了文本到 SQL 的组成归纳泛化问题，通过提出新的标准数据集 CoSQL-CG 和 SParC-CG，提出了一种基于 p-align 的改进方法，并证明了其有效性。

May, 2023

通过组件对齐测量和提高文本到 SQL 中的组合通用性

本文介绍了如何通过分句和 SQL 子句的注释构造一个新的数据集 Spider-SS，然后将 sub-sentences 不同组合构成一个新的数据集 Spider-CG，用于测试模型的组成泛化能力。实验表明，现有模型在 Spider-CG 上表现出显著的性能下降，我们改进了一些最先进的模型在 Spider-SS 上进行训练，提高了泛化性能。

May, 2022

GraPPa: 表格语义解析的语法增强预训练

GraPPa 是一种有效的预训练方法，用于表语义分析，学习了文本和表格数据的联合表示中的组合归纳偏置。它通过从现有文本到 SQL 数据集中归纳出的同步上下文无关文法（SCFG）构造高质量表的综合问题 - SQL 对，使用一种新的文本模式链接目标在合成数据上进行模型预训练，并包括遮蔽语言建模以引导预训练过程。GraPPa 在四个流行的全监督和弱监督表格语义解析基准上都显着优于 RoBERTa-large，建立了新的所有最先进的结果。

Sep, 2020

语义解析：基于语法和表格的 SQL 生成

利用生成模型将自然语言问题转换成 SQL 查询，并通过考虑表格结构和 SQL 语法来提高查询的可执行性和准确性。在 WikiSQL 数据集上进行实验，将执行准确率从 69.0％提高到 74.4％。

Apr, 2018

通用代码生成的句法神经模型

本文提出了一种新型神经体系结构，它由语法模型支持，旨在将自然语言描述解析为基于 Python 等通用编程语言的源代码，并将其显式地捕获为先验知识，以实现从自然语言描述生成复杂程序的规模化。实验证明，这是一种有效缩放到语言描述的复杂程序的方法，取得了优于以前代码生成和语义解析方法的最新成果。

Apr, 2017