Apr, 2024

RealHumanEval: 评估大型语言模型对程序员的支持能力

TL;DR通过使用 RealHumanEval、静态基准以及优先度度量,研究了大型语言模型(LLMs)在代码编写中的效能表现以及对程序员生产力的影响。发现优化的基准性能可以提高程序员的生产力,但基准性能与人类表现之间的差距并不成比例,同时程序员的偏好与实际表现并无关联,这促使我们需要更好、以人为中心的评估指标。同时,我们公开了 RealHumanEval 工具和研究数据以促进代码模型的改进。