COLINGFeb, 2024

HumanEval-XL:一种面向跨语言自然语言通用性的多语言代码生成评估基准

TL;DR使用人工评估的大规模多语言代码生成基准,填补了在多语言代码生成领域中评估自然语言泛化能力的空白。