Jul, 2021

对基于代码训练的大型语言模型的评估

TL;DR本文介绍了从 GitHub 公开可用的代码细调的 Codex 语言模型,并研究了其 Python 代码编写能力。在新的评估集 HumanEval 上,我们的模型可解决 28.8% 的问题,并发现重复采样模型是解决难题的有效策略。但我们也发现其局限性,最终讨论了代码生成技术的潜在影响。