CodeUpdateArena: API更新的知识编辑基准评估
本文探索了大型语言模型在通用编程语言的程序合成方面的局限性,并在新的基准测试中评估了这些模型的性能。作者在两个基准测试(MBPP和MathQA-Python)上测试了这些模型,结果表明这些模型的性能随着其大小的增加而呈现对数线性关系。他们研究了这些模型进行对话以及语意建模的能力,并发现即使是最好的模型也无法完全预测某些程序的输出。
Aug, 2021
本文提出了将自然语言编程描述翻译为正确代码修改的任务NL2Fix,为此引入了包含高级Bug修复描述的Defects4J-NL2Fix数据集,并对多种最先进的LLMs进行了实证评估,结果表明这些LLMs能够对64.6%的错误生成合理的修复,并且最佳LLM技术在此基准测试中可以达到21.20%的 top-1 和35.68%的top-5精度。
Apr, 2023
使用 EvalPlus 框架对大型语言模型进行代码综合基准测试,通过自动生成测试输入来扩充现有基准测试集,发现并降低了LLM合成代码的错误率,揭示了现有编程基准测试的局限性并为编程基准测试的改进方向开辟了新的方向。
May, 2023
提出了一种名为AutoKnow的新型两步流程,将LLMs作为知识提供者和自我反思程序员,通过从输入提示中获得知识并根据生成的知识生成中间代码,并存在解释器中接收错误消息,从而使LLMs成为专业编程人员,从而成功完成编程,有效提高了二者的表现。
Jun, 2023
通过使用半合成数据的有效方法,本文提出了一种提高Code LLMs在低资源语言上性能的方法,应用于Racket、OCaml和Lua,通过在Stack数据集上训练并使用MultiPL-T生成的数据,实现了最先进的性能。
Aug, 2023
我们提出了一种评估Large Language Models(LLMs)代码理解性能的新方法,通过引入代码变异来检测LLMs对代码和自然语言描述之间微妙差异的能力,并在各种代码变异和编程语言上对两个常见的LLMs进行了案例研究,发现它们在代码理解性能上存在显著的差异。
Jan, 2024
评估大型语言模型在代码生成中的方法是一个开放性问题。本文提出了一个新的基准测试-EvoCodeBench,用于解决现有基准测试与实际代码仓库的对接不足以及评估LLMs的编码能力不足的问题。
Mar, 2024
通过新的基准测试DevEval,我们评估了8种流行的大型语言模型在真实代码库中的编码能力,并发现这些模型的编码能力在真实世界的代码库中存在缺陷。
May, 2024
本研究提出了一种评估大型语言模型在生成高效代码方面能力的高标准基准 ENAMEL,通过新的效率度量标准 eff@k 和人工专家设计的参考解决方案对30个常用的大型语言模型进行广泛研究,发现当前的大型语言模型在设计先进算法和实现优化方面仍有不足。
Jun, 2024
基于大型语言模型(LLMs)的自动化软件工程在最近的进展中得到了极大的增强。尽管当前的基准测试表明LLMs可以完成各种软件工程任务,如人类开发人员一样,但它们的大多数评估仅限于简短的、自包含的算法任务。解决具有挑战性和实际意义的编程任务需要利用多种函数调用作为工具,以有效地实现数据分析和Web开发等功能。此外,使用多个工具来解决一个任务需要通过准确理解复杂的指令来进行组合推理。同时实现这两个特征对于LLMs来说是一个巨大的挑战。为了评估LLMs解决具有挑战性和实际意义的编程任务的能力,我们引入了一个基准测试集Bench,其中挑战LLMs以从139个库和7个领域中选择1,140个细粒度的编程任务中调用多个函数调用作为工具。为了对LLMs进行严格评估,每个编程任务包括5.6个测试用例,平均分支覆盖率达到99%。此外,我们提出了Bench的自然语言导向变体Benchi,它将原始的文档字符串自动转换为仅具有基本信息的简短指令。我们对60个LLMs进行了广泛评估,结果显示LLMs还不能准确地遵循复杂指令来使用函数调用,得分最高仅为60%,明显低于人类的97%。这些结果强调了在这个领域进一步改进的需要。
Jun, 2024