CloudEval-YAML: 云配置生成的实用基准

最近，大型语言模型（LLMs），特别是那些在代码上进行预训练的模型，展现出了从自然语言输入中以少量甚至无需样本的方式生成程序的强大能力。然而，这些模型的语言到代码生成能力缺乏全面的评估。本研究通过 L2CEval 系统地评估了 LLMs 在 7 个任务（包括语义解析、数学推理和 Python 编程）中的语言到代码生成能力，分析了可能影响它们性能的因素，如模型大小、预训练数据、指令调整和不同的提示方法。除了评估模型性能，我们还衡量了模型的置信度校准情况，并对输出的程序进行人工评估。这使我们能够识别并分析各种任务和模型的典型失败模式。L2CEval 提供了对 LLMs 在语言到代码生成方面能力和限制的全面了解。同时，我们还发布了评估框架和所有模型输出，希望为今后在该领域的进一步研究奠定基础。

Sep, 2023

ScenEval：代码生成场景评估的基准

该研究论文介绍了一种基于场景的机器学习模型评估方法，并构建了一个基准测试集，用于代码生成任务的评估。实验证明，ChatGPT 在复杂的编码任务中表现最差，生成的代码行数通常比参考解决方案少，但在圈复杂度和认知复杂度方面更复杂，如果生成的代码正确，它往往比参考解决方案少复杂度，如果生成的代码不正确，则往往比参考解决方案少复杂度。

Jun, 2024

紫色羊驼网络安全评估：面向语言模型的安全编码基准

CyberSecEval 是一个全面的基准测试，用于增强作为编程助手的大型语言模型（LLMs）的网络安全。通过对七个模型进行案例研究，CyberSecEval 成功地确定了关键的网络安全风险，并提供了改进这些模型的实用见解，强调了在开发复杂 LLMs 时整合安全考虑的重要性。

Dec, 2023

仅需一行代码的多语言自然语言生成基准测试 GEMv2

为了更方便地遵循最佳模型评估实践，我们引入了 GEMv2，它为数据集、模型和度量开发人员提供了一种模块化基础设施，可以受益于彼此的工作，并支持 51 种语言的 40 个数据集的模型在线评估。

Jun, 2022

Qiskit HumanEval: 量子代码生成模型的评估基准

通过使用 Quantum Software Development Kits (SDKs) 进行开发，本研究引入并使用了 Qiskit HumanEval 数据集，这是一个手工精选的任务集合，旨在评估 Large Language Models (LLMs) 在使用 Qiskit（一种量子 SDK）生成量子代码方面的能力，并在可执行的量子代码生成方面建立了新的基准。

Jun, 2024