Jan, 2024

挑战前人未达之地:暴露代码生成评估中的偏见和不足

TL;DR本研究对 Python 代码生成的两个广泛应用的基准测试 ——HumanEval 和 MBPP 进行了大规模人工评估,重点关注它们的多样性与难度。研究结果发现,现有基准测试对少数编程概念存在显著偏向,而对大多数概念几乎没有或没有代表性的呈现。此外,研究还发现易于完成的编程问题所占比例极高,可能导致对模型在代码生成任务上性能的过高评价。