BriefGPT.xyz
大模型
Ask
alpha
关键词
evalplus
搜索结果 - 1
通过严格评估大型语言模型来生成代码,确定 ChatGPT 生成的代码是否真正正确
使用 EvalPlus 框架对大型语言模型进行代码综合基准测试,通过自动生成测试输入来扩充现有基准测试集,发现并降低了 LLM 合成代码的错误率,揭示了现有编程基准测试的局限性并为编程基准测试的改进方向开辟了新的方向。
PDF
a year ago
Prev
Next