代码优化：自动生成的正确性和效率偏好数据

EMNLPJun, 2024

代码优化：自动生成的正确性和效率偏好数据

Code-Optimise: Self-Generated Preference Data for Correctness and Efficiency

Leonidas Gee, Milan Gritta, Gerasimos Lampouras, Ignacio Iacobacci

TL;DRCode-Optimise 是一个框架，通过自动生成的偏好数据将正确性（通过，失败）和运行时间（快，慢）作为学习信号引入，实现了显著提高 in-domain 数据的 pass@k 的同时将竞争性基准运行时间额外降低 6％，并且对 out-of-domain 数据降低了 3％，提供了更快更便宜的推理，并在 MBPP 和 HumanEval 上将生成解决方案的平均长度分别减少了 48％和 23％。

Abstract

code language models have been trained to generate accurate solutions, typically with no regard for runtime. On the other hand, previous works that explored →

code language models execution optimisation learning signals pass@k runtime

发现论文，激发创造

软件生成数据中的偏见和误差缓解：利用生成代码模型的高级搜索和优化框架

提出了一种先进的搜索和优化框架，基于大型语言模型生成高质量代码，用于解决数据分析和生成软件系统中的错误和偏差问题，并使用 Solomonoff 归纳作为理论基础，通过扩展 Kolmogorov 条件复杂性来评估候选程序集。

Oct, 2023

CodeT：生成测试的代码生成

在本文中，我们提出了一种新方法 CodeT，利用预先训练的语言模型自动生成代码示例的测试用例，从而减少人工成本并增加测试场景的覆盖范围，最终实现基于生成的测试用例的代码解决方案选择。

Jul, 2022

利用强化学习和大型语言模型进行代码优化

提出了一种建立在大型语言模型和强化学习基础上的框架，用于减少代码优化的复杂性并提供更高的效率和可靠性。

Dec, 2023

xCodeEval：一项用于代码理解、生成、翻译和检索的大规模多语言多任务基准测试

人工智能正在开发出可以用于程序编写的 AI 系统，生成代码的自然语言描述，语言模型在生成代码的过程中表现出了良好的性能，但它们的评估通常只在少数语言和部分层次上进行，还需要更好的培训数据。

Mar, 2023

顺序基于偏好的优化

本文介绍了一种名为 PrefOpt 的开源软件包，用于简化包含人类偏好反馈的顺序优化任务，其方法是扩展了一种现有的二元偏好潜变量模型，允许对用户进行等效偏好的观察。

Jan, 2018

自我编辑：面向代码生成的故障感知代码编辑器

利用执行结果修正生成的代码，我们提出了一种基于人类编程阶段的生成和编辑方法来提高大型语言模型（LLM）在竞争性编程任务方面的代码质量，对使用不同参数大小的 9 种常见代码生成 LLM 在两个竞争性编程数据集上进行了广泛评估，相比于直接从 LLMs 生成的代码，我们的方法在 APP-dev 上的 pass@1 平均值提高了 89％，在 APPS-test 上提高了 31％，在 HumanEval 上提高了 48％，比其他后处理方法表现更优。

May, 2023

代码补全的语言模型：实践评估

基于 Transformer 的语言模型在自动代码补全方面显示出巨大的潜力，但是这些模型的评估很少使用真实数据。本研究提供了对三个公共代码语言模型在完成真实世界代码时的定量和定性评估。

Feb, 2024

发现代码生成中偏差的简单而有效方法

本文探究了现有代码生成系统中基于大型语言模型的偏见在特定情况下可能泄漏到生成代码中的问题，提出了一种自动消除提示并暴露各种偏见的框架，并将其应用于三个编码挑战中测试，发现代码生成模型存在特定提示结构和关键字的偏见，最后，我们展示了如何将我们的框架作为数据转换技术，这是更强大的代码生成方向。

Oct, 2022

学习性能提高的代码修改

本文探讨了大型语言模型对编写和重构性能更好的代码方面的能力，通过收集大量的程序优化历程以评估和提高大型语言模型的能力，并使用优化器 CODEGEN 推出性能更好的代码以帮助程序员编写有效的代码。

Feb, 2023

CYCLE: 学习自我完善代码生成

我们提出了 CYCLE 框架，学习根据可用反馈（如测试套件报告的执行结果）来自我完善错误的生成，结果表明 CYCLE 成功地保持，有时提高了一次性代码生成的质量，同时显著提高了代码语言模型的自我完善能力。

Mar, 2024