CodeJudge：使用大型语言模型评估代码生成

Oct, 2024

CodeJudge：使用大型语言模型评估代码生成

CodeJudge: Evaluating Code Generation with Large Language Models

Weixi Tong, Tianyi Zhang

TL;DR本研究解决了大型语言模型生成代码后，如何可靠评估其语义正确性的问题。提出的CodeJudge框架独创性地利用LLM进行无测试用例的代码评估，研究了不同的“慢思考”引导方法以获得深入可靠的评估。研究结果表明，CodeJudge在多数设置上表现优于现有方法，尤其在较小模型Llama-3-8B-Instruct上依然超越SOTA GPT-3.5评估方法，显示出其显著的潜在影响。

Abstract

Large Language Models (LLMs) have shown promising performance in Code Generation. However, how to reliably evaluate code generated by LLMs remains an unresolved problem. This paper presents CodeJudge, a

发现论文，激发创造

大型语言模型是代码生成领域最先进的评估器

本研究提出了一个基于GPT-3.5的评估框架，用于评估代码生成的功能正确性和人类偏好，能够在不需要测试oracle或参考文献的情况下，达到比CodeBERTScore更高的准确性和一致性。

Apr, 2023

通过严格评估大型语言模型来生成代码，确定ChatGPT生成的代码是否真正正确

使用 EvalPlus 框架对大型语言模型进行代码综合基准测试，通过自动生成测试输入来扩充现有基准测试集，发现并降低了LLM合成代码的错误率，揭示了现有编程基准测试的局限性并为编程基准测试的改进方向开辟了新的方向。

May, 2023

DevEval: 评估实际软件项目中的代码生成

通过提出一个与开发者在实践项目中的经验相一致的新基准DevEval，我们评估了五个热门的大型语言模型在代码生成方面的实际能力，揭示了它们的实际表现，并讨论了在实践项目中代码生成的挑战和未来发展方向。

Jan, 2024

DevEval：与现实世界源代码仓库对齐的手动注释代码生成基准

通过新的基准测试DevEval，我们评估了8种流行的大型语言模型在真实代码库中的编码能力，并发现这些模型的编码能力在真实世界的代码库中存在缺陷。

May, 2024

关于代码生成的大型语言模型调查

基于大规模语言模型的代码生成领域的综述，介绍了对LLMs在代码生成领域的最新进展、数据处理、性能评估、实际应用，对学术与实践之间的差距进行了分析，提出了关键挑战和机遇，并提供了一个资源网站以记录和传播该领域的最新进展。

Jun, 2024

代码生成评估的基准和指标：一项关键性回顾

对大型语言模型在编程任务中的评估工作进行了关键综述，着重讨论了现有工具的评估中使用的基准和度量标准，并提出了进一步研究的方向。

Jun, 2024

大语言模型生成的代码有什么问题？一项广泛研究

使用大型语言模型进行代码生成的能力仍具有一定限制，代码生成的结果通常较为复杂且存在错误，通过研究相关的问题和推导出的漏洞类型，提出了一个训练自由的迭代方法来减少错误并增加合格率。

Jul, 2024

大型语言模型生成代码在Leetcode上的性能研究

本研究评估了大型语言模型（LLMs）生成代码的效率，并将其与人类编写的解决方案进行比较，填补了当前研究中的数据评估空白。提出了一种新方法来测量和比较LLM生成代码的速度，发现LLM生成的代码在性能上与人类代码相当，且平均更为高效。研究结果为理解LLM在代码生成中的能力提供了重要见解，并为未来优化奠定基础。

Jul, 2024

CodeJudge-Eval：大型语言模型能否有效评判代码理解能力？

本文探讨了大型语言模型在代码理解能力评估中的不足，提出了一种新型基准测试工具CodeJudge-Eval（CJ-Eval）。CJ-Eval通过评判代码解决方案的正确性，能够挑战模型识别各种错误类型，研究结果显示即使是最先进的模型在该基准测试中也面临困难，彰显了其在深入评估模型代码理解能力方面的独特价值。

Aug, 2024

大语言模型生成代码的研究

本研究解决了大语言模型在代码生成中的正确性和质量问题。通过对ChatGPT和Copilot生成Java和Python算法及其单元测试的控制实验，提出了一种可重复和可比的评估方法，最终发现了不同模型、语言和时间间隔下的显著差异。这些结果有助于进一步优化代码生成技术并提升软件开发效率。

Aug, 2024