Oct, 2022

代码生成模型的多语言评估

TL;DR本文提出了新的基准测试,包括 MBXP,Multilingual HumanEval 和 MathQA-X,以测试多语言环境下代码生成模型的性能,并发现了多语言模型的优势,以及通过 few-shot prompting 实现对模型新语言的教学能力和在单语言环境下的 zero-shot translation 能力。同时,作者还利用其代码生成模型在多种语言上实现了大规模引导过程,产生了其他与代码相关的评估任务中使用的合成规范解决方案。