超越正确性：大语言模型多维代码生成基准测试

Jul, 2024

超越正确性：大语言模型多维代码生成基准测试

Beyond Correctness: Benchmarking Multi-dimensional Code Generation for Large Language Models

Jiasheng Zheng, Boxi Cao, Zhengzhao Ma, Ruotong Pan, Hongyu Lin...

TL;DR通过新的RACE基准对18种代表性的大型语言模型进行了评估，发现目前这些模型在按需生成高质量代码方面还未满足软件开发的要求，其中代码的可读性是生成代码整体质量的重要指标，并且大多数模型对特定编码风格偏好。这些发现有助于研究人员更深入地理解当前大型语言模型的编码能力，并为模型改进指明未来方向。

Abstract

In recent years, researchers have proposed numerous benchmarks to evaluate the impressive coding capabilities of large language models (LLMs). However, existing benchmarks primarily focus on assessing the correct

发现论文，激发创造

大型语言模型代码生成的鲁棒性和可靠性研究

最近，大型语言模型 (LLMs) 在理解自然语言和生成编程代码方面表现出了非凡的能力。然而，对于LLMs生成的代码的可靠性和鲁棒性的研究尚未得到深入的探讨。这项研究提出了一个包括1208个编程问题的数据集RobustAPI，用于评估LLMs生成的代码的可靠性和鲁棒性，并发现甚至对于GPT-4而言，62%的生成代码存在API误用，这可能导致意想不到的后果。

Aug, 2023

LiveCodeBench：大规模语言模型对代码进行全面无污染评估

本文提出了一个面向代码的综合、无污染评估系统LiveCodeBench，其中收集了来自LeetCode、AtCoder和CodeForces三个竞赛平台的问题，着重评估LLMs在代码生成以外的自修复、代码执行和测试输出预测等更广泛的代码相关能力。

Mar, 2024

尺寸越大越好吗？通过预算重新分配改进的LLM代码生成

在相同预算下，研究发现使用较小的语言模型可以获得持续改进，但在无法进行单元测试的情况下，从较小模型中选择候选者的排名方法的性能不如较大模型的单一输出。

Mar, 2024

DevEval：与现实世界源代码仓库对齐的手动注释代码生成基准

通过新的基准测试DevEval，我们评估了8种流行的大型语言模型在真实代码库中的编码能力，并发现这些模型的编码能力在真实世界的代码库中存在缺陷。

May, 2024

LLM生成的代码的效率如何？一个严格和高标准的基准测试

本研究提出了一种评估大型语言模型在生成高效代码方面能力的高标准基准 ENAMEL，通过新的效率度量标准 eff@k 和人工专家设计的参考解决方案对30个常用的大型语言模型进行广泛研究，发现当前的大型语言模型在设计先进算法和实现优化方面仍有不足。

Jun, 2024

代码生成评估的基准和指标：一项关键性回顾

对大型语言模型在编程任务中的评估工作进行了关键综述，着重讨论了现有工具的评估中使用的基准和度量标准，并提出了进一步研究的方向。

Jun, 2024

大型语言模型中的编码风格一致性研究

通过实证分析编码生成的主要模型（LLMs）和人类开发者的编码风格不一致，总结编码风格的不一致分类法，并对可行性、简洁性和健壮性进行比较，揭示LLMs和开发者具有不同的编码风格，并研究这些不一致的可能原因并提供解决方案。

Jun, 2024

大语言模型生成的代码有什么问题？一项广泛研究

使用大型语言模型进行代码生成的能力仍具有一定限制，代码生成的结果通常较为复杂且存在错误，通过研究相关的问题和推导出的漏洞类型，提出了一个训练自由的迭代方法来减少错误并增加合格率。

Jul, 2024

大型语言模型生成代码在Leetcode上的性能研究

本研究评估了大型语言模型（LLMs）生成代码的效率，并将其与人类编写的解决方案进行比较，填补了当前研究中的数据评估空白。提出了一种新方法来测量和比较LLM生成代码的速度，发现LLM生成的代码在性能上与人类代码相当，且平均更为高效。研究结果为理解LLM在代码生成中的能力提供了重要见解，并为未来优化奠定基础。

Jul, 2024

功能正确性是否足够评估代码语言模型？探索生成代码的多样性

本研究探讨生成代码的多样性作为评估代码语言模型（LMs）能力的关键标准，而不仅仅是功能正确性。我们提出了一种系统性的方法，通过不同的互代码相似性指标来评估生成代码的多样性，并发现当前的LMs往往产生功能正确但缺乏多样性的代码，从而强调了多样性在代码生成中的重要性。

Aug, 2024