CodeJudge-Eval：大型语言模型能否有效评判代码理解能力？

Aug, 2024

CodeJudge-Eval：大型语言模型能否有效评判代码理解能力？

CodeJudge-Eval: Can Large Language Models be Good Judges in Code Understanding?

Yuwei Zhao, Ziyang Luo, Yuchen Tian, Hongzhan Lin, Weixiang Yan...

TL;DR本文探讨了大型语言模型在代码理解能力评估中的不足，提出了一种新型基准测试工具CodeJudge-Eval（CJ-Eval）。CJ-Eval通过评判代码解决方案的正确性，能够挑战模型识别各种错误类型，研究结果显示即使是最先进的模型在该基准测试中也面临困难，彰显了其在深入评估模型代码理解能力方面的独特价值。

Abstract

Recent advancements in Large Language Models (LLMs) have showcased impressive code generation capabilities, primarily evaluated through language-to-code benchmarks. However, these benchmarks may not fully capture a model's →

发现论文，激发创造

通过严格评估大型语言模型来生成代码，确定ChatGPT生成的代码是否真正正确

使用 EvalPlus 框架对大型语言模型进行代码综合基准测试，通过自动生成测试输入来扩充现有基准测试集，发现并降低了LLM合成代码的错误率，揭示了现有编程基准测试的局限性并为编程基准测试的改进方向开辟了新的方向。

May, 2023

用于代码的大型语言模型的程序测试能力

利用对最近的大型语言模型进行了代码测试的详尽分析，本研究展示了这些模型的一系列有趣性质，并展示了如何改进大型语言模型的程序测试能力，通过利用生成的测试用例来提高合成程序的质量，相较于GPT-3.5-turbo和最新的最先进技术，我们的方法在HumanEval+上的代码通过率分别提高了11.77%和4.22%。

Oct, 2023

CodeScope: 一个基于执行的多语言多任务多维度基准评估工具，用于评估LLMs在代码理解和生成方面的能力

评估大型语言模型在编码任务上的能力的多维度、多语言、多任务评估基准CodeScope的引入和分析

Nov, 2023

DevEval: 评估实际软件项目中的代码生成

通过提出一个与开发者在实践项目中的经验相一致的新基准DevEval，我们评估了五个热门的大型语言模型在代码生成方面的实际能力，揭示了它们的实际表现，并讨论了在实践项目中代码生成的挑战和未来发展方向。

Jan, 2024

评估大型语言模型的程序执行运行时行为

本文提出了一个名为REval的框架，用于评估代码LLM的代码推理能力和一致性，通过对现有的代码基准进行改进，在大规模的实证研究中发现大多数LLMs在运行时行为推理和增量一致性评估方面表现不尽人意，强调了提高代码LLM的代码推理能力的迫切需求。

Mar, 2024

DevEval：与现实世界源代码仓库对齐的手动注释代码生成基准

通过新的基准测试DevEval，我们评估了8种流行的大型语言模型在真实代码库中的编码能力，并发现这些模型的编码能力在真实世界的代码库中存在缺陷。

May, 2024

LLM生成的代码的效率如何？一个严格和高标准的基准测试

本研究提出了一种评估大型语言模型在生成高效代码方面能力的高标准基准 ENAMEL，通过新的效率度量标准 eff@k 和人工专家设计的参考解决方案对30个常用的大型语言模型进行广泛研究，发现当前的大型语言模型在设计先进算法和实现优化方面仍有不足。

Jun, 2024

BigCodeBench：多样化函数调用和复杂指令的代码生成基准

基于大型语言模型(LLMs)的自动化软件工程在最近的进展中得到了极大的增强。尽管当前的基准测试表明LLMs可以完成各种软件工程任务，如人类开发人员一样，但它们的大多数评估仅限于简短的、自包含的算法任务。解决具有挑战性和实际意义的编程任务需要利用多种函数调用作为工具，以有效地实现数据分析和Web开发等功能。此外，使用多个工具来解决一个任务需要通过准确理解复杂的指令来进行组合推理。同时实现这两个特征对于LLMs来说是一个巨大的挑战。为了评估LLMs解决具有挑战性和实际意义的编程任务的能力，我们引入了一个基准测试集Bench，其中挑战LLMs以从139个库和7个领域中选择1,140个细粒度的编程任务中调用多个函数调用作为工具。为了对LLMs进行严格评估，每个编程任务包括5.6个测试用例，平均分支覆盖率达到99%。此外，我们提出了Bench的自然语言导向变体Benchi，它将原始的文档字符串自动转换为仅具有基本信息的简短指令。我们对60个LLMs进行了广泛评估，结果显示LLMs还不能准确地遵循复杂指令来使用函数调用，得分最高仅为60%，明显低于人类的97%。这些结果强调了在这个领域进一步改进的需要。

Jun, 2024

大语言模型生成的代码有什么问题？一项广泛研究

使用大型语言模型进行代码生成的能力仍具有一定限制，代码生成的结果通常较为复杂且存在错误，通过研究相关的问题和推导出的漏洞类型，提出了一个训练自由的迭代方法来减少错误并增加合格率。

Jul, 2024

CodeJudge：使用大型语言模型评估代码生成

本研究解决了大型语言模型生成代码后，如何可靠评估其语义正确性的问题。提出的CodeJudge框架独创性地利用LLM进行无测试用例的代码评估，研究了不同的“慢思考”引导方法以获得深入可靠的评估。研究结果表明，CodeJudge在多数设置上表现优于现有方法，尤其在较小模型Llama-3-8B-Instruct上依然超越SOTA GPT-3.5评估方法，显示出其显著的潜在影响。

Oct, 2024