Oct, 2022

代码生成模型的多语言评估

TL;DR本文提出了新的基准测试,包括MBXP,Multilingual HumanEval和MathQA-X,以测试多语言环境下代码生成模型的性能,并发现了多语言模型的优势,以及通过few-shot prompting实现对模型新语言的教学能力和在单语言环境下的zero-shot translation能力。同时,作者还利用其代码生成模型在多种语言上实现了大规模引导过程,产生了其他与代码相关的评估任务中使用的合成规范解决方案。