CodeScope: 一个基于执行的多语言多任务多维度基准评估工具,用于评估LLMs在代码理解和生成方面的能力
本文提出了新的基准测试,包括MBXP,Multilingual HumanEval和MathQA-X,以测试多语言环境下代码生成模型的性能,并发现了多语言模型的优势,以及通过few-shot prompting实现对模型新语言的教学能力和在单语言环境下的zero-shot translation能力。同时,作者还利用其代码生成模型在多种语言上实现了大规模引导过程,产生了其他与代码相关的评估任务中使用的合成规范解决方案。
Oct, 2022
通过新的基准测试DevEval,我们评估了8种流行的大型语言模型在真实代码库中的编码能力,并发现这些模型的编码能力在真实世界的代码库中存在缺陷。
May, 2024
基于大规模语言模型的代码生成领域的综述,介绍了对LLMs在代码生成领域的最新进展、数据处理、性能评估、实际应用,对学术与实践之间的差距进行了分析,提出了关键挑战和机遇,并提供了一个资源网站以记录和传播该领域的最新进展。
Jun, 2024
基于大型语言模型(LLMs)的自动化软件工程在最近的进展中得到了极大的增强。尽管当前的基准测试表明LLMs可以完成各种软件工程任务,如人类开发人员一样,但它们的大多数评估仅限于简短的、自包含的算法任务。解决具有挑战性和实际意义的编程任务需要利用多种函数调用作为工具,以有效地实现数据分析和Web开发等功能。此外,使用多个工具来解决一个任务需要通过准确理解复杂的指令来进行组合推理。同时实现这两个特征对于LLMs来说是一个巨大的挑战。为了评估LLMs解决具有挑战性和实际意义的编程任务的能力,我们引入了一个基准测试集Bench,其中挑战LLMs以从139个库和7个领域中选择1,140个细粒度的编程任务中调用多个函数调用作为工具。为了对LLMs进行严格评估,每个编程任务包括5.6个测试用例,平均分支覆盖率达到99%。此外,我们提出了Bench的自然语言导向变体Benchi,它将原始的文档字符串自动转换为仅具有基本信息的简短指令。我们对60个LLMs进行了广泛评估,结果显示LLMs还不能准确地遵循复杂指令来使用函数调用,得分最高仅为60%,明显低于人类的97%。这些结果强调了在这个领域进一步改进的需要。
Jun, 2024
本研究评估了大型语言模型(LLMs)生成代码的效率,并将其与人类编写的解决方案进行比较,填补了当前研究中的数据评估空白。提出了一种新方法来测量和比较LLM生成代码的速度,发现LLM生成的代码在性能上与人类代码相当,且平均更为高效。研究结果为理解LLM在代码生成中的能力提供了重要见解,并为未来优化奠定基础。
Jul, 2024
本研究解决了现有代码基准测试中存在的编程语言偏见和编码任务偏差,尤其是在多语言代码推理方面的不足。提出的CRUXEval-X基准测试涵盖19种编程语言,具备600个样本和19K一致性测试,采用全自动和测试引导的构建流程。在对24种大型语言模型的评估中,发现了不同语言对之间的显著相关性,揭示了模型在跨语言推理中的潜力。
Aug, 2024
本研究解决了大型语言模型生成代码后,如何可靠评估其语义正确性的问题。提出的CodeJudge框架独创性地利用LLM进行无测试用例的代码评估,研究了不同的“慢思考”引导方法以获得深入可靠的评估。研究结果表明,CodeJudge在多数设置上表现优于现有方法,尤其在较小模型Llama-3-8B-Instruct上依然超越SOTA GPT-3.5评估方法,显示出其显著的潜在影响。
Oct, 2024
本研究探讨了大型语言模型(LLMs)作为代码执行器的潜力,首次系统性地分析了多个模型在代码执行中的可行性。研究提出了逐行处理代码片段的迭代指令提示(IIP)技术,有效提高了较弱模型的准确性,最高提升达18.96%。该研究为未来的自动编程和复杂任务的完成奠定了基础。
Oct, 2024
本研究针对大型语言模型(LLMs)在代码理解和生成方面的能力进行了深入探讨,填补了将 LLMs 作为代码执行器的研究空白。我们提出了一种迭代指令提示(IIP)技术,以逐行处理代码片段,显著提高了较弱模型的准确性,进而展示了 LLMs 在编程自动化和复杂任务完成中的潜在变革性影响。
Oct, 2024
本研究针对代码生成大型语言模型(LLMs)在自然语言与编码能力整合方面的不足,提出了一种预训练策略来提升这两种能力的结合。研究结果表明,所提出的模型Crystal在自然语言和代码生成方面的性能与Llama 2和Code Llama相当,同时数据效率更高,显示出更有效的训练方式和潜在的广泛应用价值。
Nov, 2024