使用迭代、工具增强的知识库推理实现的自然语言到类级代码生成

Apr, 2024

使用迭代、工具增强的知识库推理实现的自然语言到类级代码生成

Class-Level Code Generation from Natural Language Using Iterative, Tool-Enhanced Reasoning over Repository

Ajinkya Deshpande, Anmol Agarwal, Shashank Shet, Arun Iyer, Aditya Kanade...

TL;DRLLMs 在代码生成任务中展示了显著的潜力，在各种基准测试中在函数或语句级别取得了有希望的结果。然而，在创建类等代码构件方面的复杂性，特别是在实际软件库的背景下，尚未得到充分探索。现有的研究通常将类级生成视为一项孤立的任务，忽视了表征实际软件开发环境的错综复杂的依赖关系和交互作用。为了填补这一空白，我们介绍了 RepoClassBench，这是一个旨在严格评估 LLMs 在创建复杂的类级代码时在实际软件库中的能力的基准测试。RepoClassBench 包括 Java 和 Python 中的自然语言到类的生成任务，来自一组公共软件库。我们确保数据集中的每个类不仅在库内跨文件存在依赖关系，而且还包括相应的测试用例来验证其功能。我们发现目前的模型在我们的基准测试中面临着现实挑战，主要是由于它们对相关库上下文的有限了解。为了解决这个缺点，我们介绍了 Retrieve-Repotools-Reflect (RRR)，这是一种新颖的方法，为 LLMs 提供静态分析工具，以迭代地导航和推理库级上下文，并在基于代理的框架中进行。我们的实验表明，RRR 在 RepoClassBench 上明显优于现有基准线，展示了它在不同编程语言和各种设置中的有效性。我们的发现强调了需要结合库级依赖关系以更准确地反映软件开发的复杂性的基准测试的必要性。我们的工作说明了利用专门的工具增强 LLMs 对库上下文的理解的益处。我们计划公开我们的数据集和评估工具。

Abstract

llms have demonstrated significant potential in code generation tasks, achieving promising results at the function or statement level in various benchmarks. However, the complexities associated with creating code

llms code generation class-level code benchmark repository-level dependencies

发现论文，激发创造

LLMs 存储库级提示综述

这篇综述研究了大型语言模型在编码生成任务中的有效提示方法，探讨了从个别编码问题到仓库规模解决方案的转变，旨在推进开发者生产力，为商业应用场景提供有用且适用的黑盒语言模型方法，并介绍了基于仓库级提示生成技术与 RepoCoder 的迭代检索与生成方法之间的权衡，以确立最佳实践，为尖端编码基准提供改进路径。

Dec, 2023

增强集成上下文信息的代码生成库

CatCoder 是一种新颖的代码生成框架，扩展了库级代码生成的能力，通过整合相关代码和类型上下文，利用静态分析器提取类型依赖并将其与检索到的代码合并，创建综合提示；实验证明 CatCoder 在各种 LLMs 中表现良好，提供了一致的性能改进。

Jun, 2024

RepoBench：评估代码自动完成系统的存储库水平性能

该研究介绍一种名为 RepoBench 的新基准，旨在评估特定于存储库的代码自动完成系统，该基准包含三个相互关联的评估任务：RepoBench-R（检索），RepoBench-C（代码完成）和 RepoBench-P（管道），每个任务分别衡量系统从其他文件中检索最相关的代码片段的能力作为跨文件上下文，使用跨文件和文件内上下文预测代码的下一行以及处理需要检索和下一行预测组合的复杂任务。

Jun, 2023

REPOEXEC: 通过代码库级别的可执行基准评估代码生成

CodeLLMs 在仓库级别规模上生成可执行且功能正确的代码的能力尚未得到广泛探索。我们引入了一种新的评估代码生成在仓库级别规模上的基准，名为 methodnamews，强调可执行性和正确性。methodnamews 提供了一个自动化系统，用于验证要求，并具有动态生成高覆盖率测试用例的机制，以评估生成代码的功能性。我们的研究探索了一个受控场景，开发人员在其中指定必要的代码依赖项，挑战模型准确地集成这些依赖项。实验证明，尽管预训练的 LLMs 在正确性方面胜过指令调优模型，但后者在利用所提供的依赖项和展示调试能力方面表现出色。methodnamews 旨在提供对代码功能和与开发人员意图的一致性的全面评估，为在实际场景中使用更可靠和适用的 CodeLLMs 铺平道路。

Jun, 2024

EvoCodeBench: 一个与真实世界代码仓库对齐的演化代码生成基准

评估大型语言模型在代码生成中的方法是一个开放性问题。本文提出了一个新的基准测试 - EvoCodeBench，用于解决现有基准测试与实际代码仓库的对接不足以及评估 LLMs 的编码能力不足的问题。

Mar, 2024

CodeS: 自然语言转代码仓库的多层草图

利用大型语言模型自动生成软件开发者库 (Code Repository) 的简单而有效的框架 CodeS 在自然语言到代码库转换任务上显示出了其有效性和实用性。

Mar, 2024

RTL-Repo：大规模 RTL 设计项目中评估 LLM 的基准测试

该研究提出了 RTL-Repo 基准，并通过评估多个先进模型在该基准上的表现，比较了它们在生成复杂 RTL 项目的 Verilog 代码方面的性能。RTL-Repo 基准为硬件设计社区提供了一个有价值的资源，用于评估和比较大型语言模型在真实 RTL 设计场景中的性能，并专门为复杂的多文件 RTL 项目的 Verilog 代码生成训练大型语言模型。RTL-Repo 是一个开源项目，可在 Github 上公开获取。

May, 2024

ML-Bench：大型语言模型基于开源库进行机器学习任务

通过使用开源库完成机器学习任务，本文旨在提出一种新的评估设置，以评估大型语言模型（LLMs）在实际编程中的适用性，并介绍了 ML-Bench 和 ML-Agent 两个工具，用于评估 LLMs 在利用开源函数时的有效性。

Nov, 2023

RES-Q: 对代码编辑大规模语言模型系统的评估

通过提出的基于自然语言指令的基准测试 RES-Q，对大型语言模型的指令遵循能力和代码仓库编辑系统进行了评估，发现模型能力存在差异，并提出了评估工具的需求。

Jun, 2024

大型语言模型代码生成的鲁棒性和可靠性研究

最近，大型语言模型 (LLMs) 在理解自然语言和生成编程代码方面表现出了非凡的能力。然而，对于 LLMs 生成的代码的可靠性和鲁棒性的研究尚未得到深入的探讨。这项研究提出了一个包括 1208 个编程问题的数据集 RobustAPI，用于评估 LLMs 生成的代码的可靠性和鲁棒性，并发现甚至对于 GPT-4 而言，62% 的生成代码存在 API 误用，这可能导致意想不到的后果。

Aug, 2023