BriefGPT.xyz
大模型
Ask
alpha
关键词
code evaluation
搜索结果 - 3
RealHumanEval: 评估大型语言模型对程序员的支持能力
通过使用 RealHumanEval、静态基准以及优先度度量,研究了大型语言模型(LLMs)在代码编写中的效能表现以及对程序员生产力的影响。发现优化的基准性能可以提高程序员的生产力,但基准性能与人类表现之间的差距并不成比例,同时程序员的偏好
→
PDF
3 months ago
DolphCoder: 用多目标指令调整为特征的大型语言模型进行回声定位编码
通过引入一种具有自我评估功能的多样指令模型 (DolphCoder) 来增强预训练的 Code LLM 的代码生成性能,实现了卓越的 HumanEval 和 MBPP 基准性能,为未来的代码指令调优工作提供了新的见解。
PDF
5 months ago
设计驱动编程:GPT-4 推动敏捷模型驱动开发
使用大型语言模型(LLMs)如 ChatGPT 从自然语言中生成代码似乎是开创性的。然而,随着更广泛的使用,显然这种方法有自己的局限性。本研究提出了一种敏捷模型驱动开发(MDD)方法,使用 OpenAI 的 GPT-4 来增强代码自动生成。
→
PDF
9 months ago
Prev
Next