CloudEval-YAML: 云配置生成的实用基准
通过新的基准测试 DevEval,我们评估了 8 种流行的大型语言模型在真实代码库中的编码能力,并发现这些模型的编码能力在真实世界的代码库中存在缺陷。
May, 2024
通过提出一个与开发者在实践项目中的经验相一致的新基准 DevEval,我们评估了五个热门的大型语言模型在代码生成方面的实际能力,揭示了它们的实际表现,并讨论了在实践项目中代码生成的挑战和未来发展方向。
Jan, 2024
提出了一种名为 VisEval 的新的 NL2VIS 基准,该基准通过引入高质量大规模数据集并倡导综合自动化评估方法,揭示了目前研究中普遍存在的挑战并为未来的进一步发展提供了重要的见解。
Jul, 2024
最近,大型语言模型(LLMs),特别是那些在代码上进行预训练的模型,展现出了从自然语言输入中以少量甚至无需样本的方式生成程序的强大能力。然而,这些模型的语言到代码生成能力缺乏全面的评估。本研究通过 L2CEval 系统地评估了 LLMs 在 7 个任务(包括语义解析、数学推理和 Python 编程)中的语言到代码生成能力,分析了可能影响它们性能的因素,如模型大小、预训练数据、指令调整和不同的提示方法。除了评估模型性能,我们还衡量了模型的置信度校准情况,并对输出的程序进行人工评估。这使我们能够识别并分析各种任务和模型的典型失败模式。L2CEval 提供了对 LLMs 在语言到代码生成方面能力和限制的全面了解。同时,我们还发布了评估框架和所有模型输出,希望为今后在该领域的进一步研究奠定基础。
Sep, 2023
该研究论文介绍了一种基于场景的机器学习模型评估方法,并构建了一个基准测试集,用于代码生成任务的评估。实验证明,ChatGPT 在复杂的编码任务中表现最差,生成的代码行数通常比参考解决方案少,但在圈复杂度和认知复杂度方面更复杂,如果生成的代码正确,它往往比参考解决方案少复杂度,如果生成的代码不正确,则往往比参考解决方案少复杂度。
Jun, 2024
CyberSecEval 是一个全面的基准测试,用于增强作为编程助手的大型语言模型(LLMs)的网络安全。通过对七个模型进行案例研究,CyberSecEval 成功地确定了关键的网络安全风险,并提供了改进这些模型的实用见解,强调了在开发复杂 LLMs 时整合安全考虑的重要性。
Dec, 2023
为了更方便地遵循最佳模型评估实践,我们引入了 GEMv2,它为数据集、模型和度量开发人员提供了一种模块化基础设施,可以受益于彼此的工作,并支持 51 种语言的 40 个数据集的模型在线评估。
Jun, 2022
通过使用 Quantum Software Development Kits (SDKs) 进行开发,本研究引入并使用了 Qiskit HumanEval 数据集,这是一个手工精选的任务集合,旨在评估 Large Language Models (LLMs) 在使用 Qiskit(一种量子 SDK)生成量子代码方面的能力,并在可执行的量子代码生成方面建立了新的基准。
Jun, 2024