减少先验知识、增加单语数据的自然语言代码生成

ACLJan, 2021

减少先验知识、增加单语数据的自然语言代码生成

Code Generation from Natural Language with Less Prior and More Monolingual Data

Sajad Norouzi, Keyi Tang, Yanshuai Cao

TL;DR通过利用较大的单语语料库，本研究调查了一个基于通用 transformer 的 seq2seq 模型是否可以在最小限度的代码生成特定归纳偏差下实现与其他语言模型相当的性能，结果显示其在 Django 上实现了 81.03％的完全匹配准确性和 32.57 的 CoNaLa BLEU 分数，均达到了我们所知道的最好水平，这为在实践中构建准确的语义解析器提供了可能更容易的途径。

Abstract

Training datasets for semantic parsing are typically small due to the higher expertise required for annotation than most other NLP tasks. As a result, models for this application usually need additional prior knowledge to be built into the architecture or algorithm. The increased depen

semantic parsing transformer-based model code generation monolingual corpus performance

发现论文，激发创造

源代码合成与完成的神经模型

本研究提出了一种基于序列到序列深度学习模型的自然语言到编程语言的建议系统，可以根据自然语言的意图建议源代码片段，并扩展源代码的自动补全功能。该系统通过上下文感知的神经模型直接生成源代码标记，而不是从源代码生成解析树 / 抽象意义表示再转换成源代码。此外，提出的架构还使用预训练策略和数据增强技术来提高性能，并且在 BLEU-4 指标上超过了神经语义解析器 TranX 的表现约 10.82%。该系统还可以用于生成源代码的自然语言文档，并提出了基于 RoBERTa 的掩码语言模型来扩展该系统用于代码补全。

Feb, 2024

使用 Transformer 将自然语言转化为代码

本文使用 CoNaLa 数据集，利用自注意力变换器结构解决了从自然语言描述中生成代码片段的问题，并表明其表现优于循环注意力编码器解码器，使用修改后的反向翻译和周期一致损失以端到端的方式训练模型，实现了 16.99 的 BLEU 分数，超过了 CoNaLa 挑战的先前基线。

Feb, 2022

神经语义解析的迁移学习

本文提出了一种基于多任务框架和序列到序列模型的语义解析方法，旨在解决语料数据不足限制，较少标注数据任务可以通过从大量标注数据任务中传递学习的方式得到提升，实验结果在自己的数据集中获得了 1.0% 到 4.4% 的准确度提升，在 ATIS 语义解析任务中，准确度提升了 2.5% 到 7.0%。

Jun, 2017

用非常少的数据训练自然化语义解析器

本篇论文介绍了一种基于语言模型的 seq2seq 体系结构，重点介绍了少样本语义解析，并基于非注释数据引入联合训练、有约束的解码、自训练和重新表述这四种技术进行了自动方法来提高语义解析性能。结果表明，该方法在夜间数据集上提供了新的最优结果，并在新的语义解析数据集上提供了非常令人信服的少样本结果。

Apr, 2022

通用代码生成的句法神经模型

本文提出了一种新型神经体系结构，它由语法模型支持，旨在将自然语言描述解析为基于 Python 等通用编程语言的源代码，并将其显式地捕获为先验知识，以实现从自然语言描述生成复杂程序的规模化。实验证明，这是一种有效缩放到语言描述的复杂程序的方法，取得了优于以前代码生成和语义解析方法的最新成果。

Apr, 2017

跨语言语义解析器的引导

本研究的主要目的是使一个语义解析器模型从英语语言转移到其他多种语言和领域上，通过机器翻译、释义、多语言预训练模型，我们得出一个基于 Transformer 的语义解析器，用于在德语和中文中准确解析。实验表明，机器翻译结合多组 MT 引擎释义可以近似于多种语言的训练数据，同时我们还成功地将训练数据减半，最终准确度仅低于完整翻译 2%。

Apr, 2020

利用训练于代码上的语言模型进行少样本语义解析

本文研究使用具备上下文的例句，将语义解析问题转化为规范语句的近义词问题，旨在改善大型语言模型在少量训练数据下的性能，并探究在自然语言映射为代码的语义解析任务中，使用预训练模型 OpenAI Codex 能否表现更好。实验发现，相比等效的 GPT-3 模型，Codex 在这种任务中表现更佳，尤其是在像 Overnight 和 SMCalFlow 这样的数据集中。

Dec, 2021

受限语言模型实现少样本语义分析器

利用大型预处理语言模型作为少型语义解析器，将输入 paraphrase 成类似英语的控制子语言，通过很少的数据和代码快速批量生成语义解析器，表现出令人惊讶的有效性，远超过基线方法。

Apr, 2021

结构化数据自然语言双射的突破口和 LLM 注释的角色

使用多个任务的序列到序列变压器语言模型对某些度量标准的性能进行改进的理论仅有有限的证据，但多任务通用模型 t5-small 相较于专门模型 t5-small 在 F1 度为 0.771（原为 0.692）表明其具备跨任务知识泛化的潜力；然而，逆任务只是一种优化策略，模型大小方面的瓶颈和语料库分布差异等因素可能导致性能的降低，进一步的研究需要使用更大模型或进行人工评估来解释贡献这些任务性能的机制。

Jan, 2024

针对希伯来语自然语言处理的多语言序列到序列模型

使用序列生成结构的多语言模型能够更好的处理像希伯来语这样的形态丰富语言，从而提高希伯来语自然语言处理，与以往的编码器结构的预训练模型相比，取得了显著改善。

Dec, 2022