基于执行的评估方法来评估开放域代码生成

Dec, 2022

基于执行的评估方法来评估开放域代码生成

Execution-Based Evaluation for Open-Domain Code Generation

Zhiruo Wang, Shuyan Zhou, Daniel Fried, Graham Neubig

TL;DR提出ODEX——自然语言处理与代码生成数据集，包含945组自然语言代码对、1707个测试集，并支持四种语言，从StackOverflow论坛的实践操作中获得，旨在促进开放性问题的研究。ODEX支持执行评估，强大的模型有改进空间。

Abstract

To extend the scope of coding queries to more realistic settings, we propose ODEX, the first open-domain execution-based natural language (NL) to code generation dataset. ODEX has 945 NL-Code pairs spanning 79 di

发现论文，激发创造

利用预训练技术引入外部知识进行自然语言转码

本研究通过整合来自 StackOverflow 和编程语言 API 文档等两个不同来源的知识，采用数据增强和检索重采样等方法，提高了 CoNaLa 代码生成测试集上的 BLEU 分数，从而探索了将自然语言转为 Python 代码的任务的有效性。

Apr, 2020

自然语言与代码交互式的转换与执行

本文介绍了基于执行结果的最小贝叶斯风险解码（MBR-EXEC）用于程序选择，并表明它改善了预训练代码模型在自然语言到代码任务上的少样本性能。

Apr, 2022

CodeGeeX: 一个基于预训练的多语言代码生成模型及其在HumanEval-X上的评价

本文介绍CodeGeeX，一个具有130亿参数的多语言预训练代码生成模型。通过 extensive experiments，CodeGeeX 在 HumanEval-X 上表现出比其他类似规模的多语言代码模型更好的代码生成和转换性能。通过对 Visual Studio Code、JetBrains 和 Cloud Studio 进行扩展，CodeGeeX 可以为活跃用户生成 47 亿个 tokens，并帮助83.4％的用户提高编码效率。

Mar, 2023

CodeBenchGen: 创建可扩展的基于执行的代码生成基准

用CodeBenchGen框架创建可扩展的基于执行的基准测试，利用大型语言模型将任意代码转换为评估示例，并通过Exec-CSN数据集展示了人类和模型在代码生成系统上的性能分析。

Mar, 2024

针对NL2Bash的执行评估挑战

最近大规模语言模型的进展引发了自然语言提示到不同编程语言的转换任务（代码生成），该任务引起了广泛关注，并广泛应用于不同领域。本文针对Bash的代码生成以及相应的代码验证方法进行了研究，提出了针对NL2Bash的基于执行的评估机制，并通过50个提示进行了实证评估，同时还分析了该机制面临的挑战和优势。

May, 2024

DevEval：与现实世界源代码仓库对齐的手动注释代码生成基准

通过新的基准测试DevEval，我们评估了8种流行的大型语言模型在真实代码库中的编码能力，并发现这些模型的编码能力在真实世界的代码库中存在缺陷。

May, 2024

NoviCode: 自然语言新手生成程序

从非技术描述生成完整程序的挑战在代码合成领域是个令人难以开启的问题，本研究提出了NoviCode，一种新颖的自然语言编程任务，通过接收API和新手非程序员的自然语言描述作为输入，生成可执行程序作为输出，并通过基于功能执行的测试套件来评估模型的有效性。研究发现，NoviCode是一个具有挑战性的代码合成任务，传统的端到端文本到代码模型在生成复杂代码时表现不佳，而一种新颖的方法是将自然语言表达与代码的组合层次结构对齐，极大地提升了模型在此任务中的性能。

Jul, 2024

DOMAINEVAL：自动构建的多领域代码生成基准

本文针对当前代码基准主要集中于常见编码任务的问题，提出了一种多领域代码基准DOMAINEVAL，以全面评估大型语言模型（LLMs）的编码能力。研究发现LLMs在计算任务上表现良好，但在密码学和系统编码任务上存在显著不足，提供了进一步研究的方向。

Aug, 2024

DOCE：基于执行的代码生成中的最佳执行点

本研究解决了现有LLM代码生成方法缺乏综合比较框架的问题，提出了一套包含候选生成、n-best 重排名、最小贝叶斯风险解码和自我调试的综合框架。研究结果强调了基于执行的方法的重要性，并展示了通过单元测试过滤的简单有效策略对提升代码生成性能的影响。

Aug, 2024

开源能超越ChatGPT吗？——文本到代码生成的大型语言模型比较研究

本研究探讨了大型语言模型在文本到代码生成中的表现，特别是对比了Bard、BingChat、ChatGPT、Llama2和Code Llama等五种先进模型的能力。研究发现，ChatGPT在处理编程挑战方面远胜于其他模型，包括专门针对代码生成的Code Llama，展现出明显的性能优势。

Sep, 2024