功能正确性是否足够评估代码语言模型？探索生成代码的多样性

Aug, 2024

功能正确性是否足够评估代码语言模型？探索生成代码的多样性

Is Functional Correctness Enough to Evaluate Code Language Models? Exploring Diversity of Generated Codes

Heejae Chon, Seonghyeon Lee, Jinyoung Yeo, Dongha Lee

TL;DR本研究探讨生成代码的多样性作为评估代码语言模型（LMs）能力的关键标准，而不仅仅是功能正确性。我们提出了一种系统性的方法，通过不同的互代码相似性指标来评估生成代码的多样性，并发现当前的LMs往往产生功能正确但缺乏多样性的代码，从而强调了多样性在代码生成中的重要性。

Abstract

Language Models (LMs) have exhibited impressive abilities in generating codes from natural language requirements. In this work, we highlight the Diversity of code generated by LMs as a critical criterion for eval

发现论文，激发创造

代码的大型语言模型的系统评估

通过对现有大型模型(包括 Codex、GPT-J、GPT-Neo、GPT-NeoX-20B 和 CodeParrot)的系统评估，我们填补了目前缺少大量模型和数据设计决策信息的空白，并提出了一个基于 GPT-2 架构的新模型(PolyCoder)。我们发现虽然Codex本身并不是开源的，但现有的开源模型在某些编程语言上取得了接近的结果，并且在 C 编程语言中，PolyCoder 模型优于所有模型包括 Codex。

Feb, 2022

大型语言模型是代码生成领域最先进的评估器

本研究提出了一个基于GPT-3.5的评估框架，用于评估代码生成的功能正确性和人类偏好，能够在不需要测试oracle或参考文献的情况下，达到比CodeBERTScore更高的准确性和一致性。

Apr, 2023

通过严格评估大型语言模型来生成代码，确定ChatGPT生成的代码是否真正正确

使用 EvalPlus 框架对大型语言模型进行代码综合基准测试，通过自动生成测试输入来扩充现有基准测试集，发现并降低了LLM合成代码的错误率，揭示了现有编程基准测试的局限性并为编程基准测试的改进方向开辟了新的方向。

May, 2023

探索大型语言模型在解决编程问题中的鲁棒性

该研究探讨了大型语言模型在编程问题中的应用，发现最新技术如InstructGPT和ChatGPT在处理指令时表现优异，而早期使用变量名如Codex的模型的性能受描述问题时表浅的指标较大影响。

Jun, 2023

代码智能模型中的陷阱：分类与调查

通过对现有研究的综述和分类研究，我们发现了语言模型在代码智能方面的潜在问题和挑战，并提出了相应的解决方案，以构建可靠的针对代码智能的语言模型。

Oct, 2023

NoFunEval: 搞笑的事实上代码语言模型在功能正确性以外的要求上遭遇困难

我们提出了一个新的评估标准NoFunEval，用于评估代码语言模型在非功能需求和功能需求的简单分类实例上的表现，发现它们在测试中普遍表现不佳，对其训练设置存在根本的盲点。

Jan, 2024

关于基于嵌入的方法在代码生成中测量功能正确性的局限性

使用嵌入式度量指标如CodeBERTScore来测量功能正确性和编辑工作量的能力分析。

Apr, 2024

大型语言模型中的编码风格一致性研究

通过实证分析编码生成的主要模型（LLMs）和人类开发者的编码风格不一致，总结编码风格的不一致分类法，并对可行性、简洁性和健壮性进行比较，揭示LLMs和开发者具有不同的编码风格，并研究这些不一致的可能原因并提供解决方案。

Jun, 2024

超越正确性：大语言模型多维代码生成基准测试

通过新的RACE基准对18种代表性的大型语言模型进行了评估，发现目前这些模型在按需生成高质量代码方面还未满足软件开发的要求，其中代码的可读性是生成代码整体质量的重要指标，并且大多数模型对特定编码风格偏好。这些发现有助于研究人员更深入地理解当前大型语言模型的编码能力，并为模型改进指明未来方向。

Jul, 2024

大型语言模型生成代码在Leetcode上的性能研究

本研究评估了大型语言模型（LLMs）生成代码的效率，并将其与人类编写的解决方案进行比较，填补了当前研究中的数据评估空白。提出了一种新方法来测量和比较LLM生成代码的速度，发现LLM生成的代码在性能上与人类代码相当，且平均更为高效。研究结果为理解LLM在代码生成中的能力提供了重要见解，并为未来优化奠定基础。

Jul, 2024