Jan, 2024
挑战前人未达之地:暴露代码生成评估中的偏见和不足
Boldly Going Where No Benchmark Has Gone Before: Exposing Bias and
Shortcomings in Code Generation Evaluation
TL;DR本研究对Python代码生成的两个广泛应用的基准测试——HumanEval和MBPP进行了大规模人工评估,重点关注它们的多样性与难度。研究结果发现,现有基准测试对少数编程概念存在显著偏向,而对大多数概念几乎没有或没有代表性的呈现。此外,研究还发现易于完成的编程问题所占比例极高,可能导致对模型在代码生成任务上性能的过高评价。