使用 EvalPlus 框架对大型语言模型进行代码综合基准测试,通过自动生成测试输入来扩充现有基准测试集,发现并降低了LLM合成代码的错误率,揭示了现有编程基准测试的局限性并为编程基准测试的改进方向开辟了新的方向。
May, 2023
在相同预算下,研究发现使用较小的语言模型可以获得持续改进,但在无法进行单元测试的情况下,从较小模型中选择候选者的排名方法的性能不如较大模型的单一输出。
Mar, 2024
通过新的基准测试DevEval,我们评估了8种流行的大型语言模型在真实代码库中的编码能力,并发现这些模型的编码能力在真实世界的代码库中存在缺陷。
May, 2024
基于大规模语言模型的代码生成领域的综述,介绍了对LLMs在代码生成领域的最新进展、数据处理、性能评估、实际应用,对学术与实践之间的差距进行了分析,提出了关键挑战和机遇,并提供了一个资源网站以记录和传播该领域的最新进展。
Jun, 2024
本研究提出了一种评估大型语言模型在生成高效代码方面能力的高标准基准 ENAMEL,通过新的效率度量标准 eff@k 和人工专家设计的参考解决方案对30个常用的大型语言模型进行广泛研究,发现当前的大型语言模型在设计先进算法和实现优化方面仍有不足。
对大型语言模型在编程任务中的评估工作进行了关键综述,着重讨论了现有工具的评估中使用的基准和度量标准,并提出了进一步研究的方向。
使用大型语言模型进行代码生成的能力仍具有一定限制,代码生成的结果通常较为复杂且存在错误,通过研究相关的问题和推导出的漏洞类型,提出了一个训练自由的迭代方法来减少错误并增加合格率。
Jul, 2024
通过新的RACE基准对18种代表性的大型语言模型进行了评估,发现目前这些模型在按需生成高质量代码方面还未满足软件开发的要求,其中代码的可读性是生成代码整体质量的重要指标,并且大多数模型对特定编码风格偏好。这些发现有助于研究人员更深入地理解当前大型语言模型的编码能力,并为模型改进指明未来方向。
本研究解决了大语言模型在代码生成中的正确性和质量问题。通过对ChatGPT和Copilot生成Java和Python算法及其单元测试的控制实验,提出了一种可重复和可比的评估方法,最终发现了不同模型、语言和时间间隔下的显著差异。这些结果有助于进一步优化代码生成技术并提升软件开发效率。
Aug, 2024
本研究探讨了大型语言模型在文本到代码生成中的表现,特别是对比了Bard、BingChat、ChatGPT、Llama2和Code Llama等五种先进模型的能力。研究发现,ChatGPT在处理编程挑战方面远胜于其他模型,包括专门针对代码生成的Code Llama,展现出明显的性能优势。
Sep, 2024