Jun, 2024

DocCGen: 基于文档的受控代码生成

TL;DR大型语言模型在自然语言到代码生成方面展现出卓越的性能,在通用领域语言(如C++、Java和Python)上表现出最先进的性能。但是,在面向特定领域的结构化语言(如YAML、JSON)上,它们的实际使用受到限制。为了克服这个挑战,我们提出了DocCGen框架,通过将结构化代码语言的自然语言到代码生成任务分为两步处理。通过从库文档中提取的模式规则对解码进行约束,我们的框架在两个复杂的结构化语言(Ansible YAML和Bash命令)上不断改进不同规模的语言模型,并降低了结构化代码中的语法和语义错误。我们计划开源数据集和代码以促进受限制代码生成的研究。