Aug, 2024

CRUXEval-X:多语言代码推理、理解与执行的基准测试

TL;DR本研究解决了现有代码基准测试中存在的编程语言偏见和编码任务偏差,尤其是在多语言代码推理方面的不足。提出的CRUXEval-X基准测试涵盖19种编程语言,具备600个样本和19K一致性测试,采用全自动和测试引导的构建流程。在对24种大型语言模型的评估中,发现了不同语言对之间的显著相关性,揭示了模型在跨语言推理中的潜力。