BriefGPT.xyz
大模型
Ask
alpha
关键词
realhumaneval
搜索结果 - 1
RealHumanEval: 评估大型语言模型对程序员的支持能力
通过使用 RealHumanEval、静态基准以及优先度度量,研究了大型语言模型(LLMs)在代码编写中的效能表现以及对程序员生产力的影响。发现优化的基准性能可以提高程序员的生产力,但基准性能与人类表现之间的差距并不成比例,同时程序员的偏好
→
PDF
3 months ago
Prev
Next