Oct, 2024

mHumanEval -- 用于代码生成的大型语言模型评估的多语言基准

TL;DR本研究解决了当前代码生成基准在任务多样性、测试覆盖率和语言范围上的局限,尤其是低资源语言的代码生成尚未得到充分探讨。通过引入mHumanEval,一个支持200多种自然语言提示的扩展基准,研究团队采用了成熟的机器翻译方法和质量保障流程,显著提升了多语言代码生成能力的评估。最终分析揭示了当前跨语言代码生成的状态,推动了该领域的发展。