基于执行的评估方法来评估开放域代码生成
本研究通过整合来自 StackOverflow 和编程语言 API 文档等两个不同来源的知识,采用数据增强和检索重采样等方法,提高了 CoNaLa 代码生成测试集上的 BLEU 分数,从而探索了将自然语言转为 Python 代码的任务的有效性。
Apr, 2020
本文介绍CodeGeeX,一个具有130亿参数的多语言预训练代码生成模型。通过 extensive experiments,CodeGeeX 在 HumanEval-X 上表现出比其他类似规模的多语言代码模型更好的代码生成和转换性能。通过对 Visual Studio Code、JetBrains 和 Cloud Studio 进行扩展,CodeGeeX 可以为活跃用户生成 47 亿个 tokens,并帮助83.4% 的用户提高编码效率。
Mar, 2023
用CodeBenchGen框架创建可扩展的基于执行的基准测试,利用大型语言模型将任意代码转换为评估示例,并通过Exec-CSN数据集展示了人类和模型在代码生成系统上的性能分析。
Mar, 2024
最近大规模语言模型的进展引发了自然语言提示到不同编程语言的转换任务(代码生成),该任务引起了广泛关注,并广泛应用于不同领域。本文针对Bash的代码生成以及相应的代码验证方法进行了研究,提出了针对NL2Bash的基于执行的评估机制,并通过50个提示进行了实证评估,同时还分析了该机制面临的挑战和优势。
May, 2024
通过新的基准测试DevEval,我们评估了8种流行的大型语言模型在真实代码库中的编码能力,并发现这些模型的编码能力在真实世界的代码库中存在缺陷。
May, 2024
从非技术描述生成完整程序的挑战在代码合成领域是个令人难以开启的问题,本研究提出了NoviCode,一种新颖的自然语言编程任务,通过接收API和新手非程序员的自然语言描述作为输入,生成可执行程序作为输出,并通过基于功能执行的测试套件来评估模型的有效性。研究发现,NoviCode是一个具有挑战性的代码合成任务,传统的端到端文本到代码模型在生成复杂代码时表现不佳,而一种新颖的方法是将自然语言表达与代码的组合层次结构对齐,极大地提升了模型在此任务中的性能。
Jul, 2024
本文针对当前代码基准主要集中于常见编码任务的问题,提出了一种多领域代码基准DOMAINEVAL,以全面评估大型语言模型(LLMs)的编码能力。研究发现LLMs在计算任务上表现良好,但在密码学和系统编码任务上存在显著不足,提供了进一步研究的方向。
Aug, 2024
本研究解决了现有LLM代码生成方法缺乏综合比较框架的问题,提出了一套包含候选生成、n-best 重排名、最小贝叶斯风险解码和自我调试的综合框架。研究结果强调了基于执行的方法的重要性,并展示了通过单元测试过滤的简单有效策略对提升代码生成性能的影响。
Aug, 2024
本研究探讨了大型语言模型在文本到代码生成中的表现,特别是对比了Bard、BingChat、ChatGPT、Llama2和Code Llama等五种先进模型的能力。研究发现,ChatGPT在处理编程挑战方面远胜于其他模型,包括专门针对代码生成的Code Llama,展现出明显的性能优势。
Sep, 2024