面向库导向代码生成的组合式 API 推荐

Feb, 2024

面向库导向代码生成的组合式 API 推荐

Compositional API Recommendation for Library-Oriented Code Generation

Zexiong Ma, Shengnan An, Bing Xie, Zeqi Lin

TL;DR大型语言模型在代码生成方面取得了杰出的表现，但对于库导向的代码生成仍然令人不满，尤其是对于 LLM 的训练数据中没有的库。为了解决这个问题，我们提出了 CAPIR（组合式 API 推荐），它采用了 “分而治之” 的策略来推荐粗粒度的需求所需的 API。通过在 RAPID 和 LOCG 两个基准测试上的实验结果，证明了 CAPIR 相对于现有基准方法的有效性。

Abstract

large language models (LLMs) have achieved exceptional performance in code generation. However, the performance remains unsatisfactory in generating library-oriented code, especially for the libraries not present in the training data of LLMs. Previous work utilizes →

large language models library-oriented code generation api recommendation coarse-grained requirements capir

发现论文，激发创造

当语言模型遇上私有库

本文旨在通过设计 APIRetriever 和 APICoder 框架，在预训练语言模型中加入私有库的代码生成功能，并提出了包含密集检索系统的友好交互。该框架可训练于公共库数据，表现出了出色的性能。

Oct, 2022

ARIST: 一种有效的 API 参数推荐方法

本文提出了一种基于 API 方法使用者行为预测的自动参数推荐方法 ——ARIST，通过结合程序分析、语言模型以及具有专门化的功能的参数推荐特性，获取作为候选者的有前途参数，并对其进行评估，实验结果表明 ARIST 在 API 参数推荐方面相比现有方法有着更优秀的表现。

Jun, 2023

CodeCompose：AI 辅助代码编写的大规模工业部署

本文介绍了一种基于大型语言模型和 AI 技术的代码编写工具 CodeCompose，并讨论了它在工业规模部署中的挑战和测量数据。CodeCompose 不仅能够辅助编写代码，还能够提高代码质量和产生其他积极影响。

May, 2023

应用 RLAIF 用于轻量级 LLMs 中的 API 使用的代码生成

使用 AI 反馈的强化学习（RLAIF）已在多个领域展示了巨大的潜力，包括减少 LLM 输出中的伤害、提升文本摘要以及数学推理等。本文引入了一个 RLAIF 框架，用于提高轻量级（小于 1B 参数）LLMs 的代码生成能力，特别关注需要编写适当 API 调用的代码生成任务，并通过专门的提示策略从更大的 LLM（例如 GPT-3.5）中提取 AI 反馈数据，用于训练更小 LLMs 的奖励模型以实现更好的对齐。我们在 Gorilla 数据集上运行实验，并通过 AST、ROUGE 和 Code-BLEU 等多个指标精确评估模型生成的代码的质量，并开发一个能够准确计算其可执行性率的流程。我们的方法显著提升了微调 LLM 基线的性能，使可执行性率提高了 4.5%。值得注意的是，使用 RLAIF 训练的一个更小的 LLM 模型（780M 参数）超过了一个具有 7B 参数的更大的微调基线，使得代码的可执行性率提高了 1.0%。

Jun, 2024

利用大型语言模型的下一代推荐系统

介绍 RecAI，这是一个实用的工具包，旨在利用大型语言模型（LLMs）的先进能力增强或彻底改变推荐系统。

Mar, 2024

代码馆：一个软件包推荐系统

本文介绍了开源库的推荐引擎 Librarian，使用基于 CodeBERT 的模型分析源代码的上下文，根据程序中导入的库和开发者的实现建议候选库，以达到缩短软件开发周期的目的。

Oct, 2022

多步骤的无结构数据知识检索与推理

通过整合精细调整的大型语言模型与具有逻辑推理、规划和交互式约束求解能力的强大符号推理引擎，本研究介绍了 Cora，一个基于神经符号人工智能平台构建的协作研究助手，该助手旨在高风险领域执行复杂的研究和探索任务。本研究讨论了此类领域中的多步推理挑战，批评了现有的基于大型语言模型的方法的局限性，并展示了 Cora 的神经符号方法如何有效应对这些问题。我们提供了系统架构概述、知识提取和形式推理的关键算法，并展示了初步评估结果，突显了 Cora 与知名的大型语言模型和 RAG 方法相比的优越性能。

Jun, 2024

大型语言模型感知语境学习用于代码生成

基于大型语言模型的代码生成中，我们提出了一种名为 LAIL 的新型学习选择方法，通过考虑给定需求和示例时生成真实程序的概率来估计候选示例，并通过概率反馈对候选示例进行标记，使用对比学习目标训练一个有效的检索器，从而提高了代码生成的性能。在 CodeGen 和 GPT-3.5 方面，LAIL 在三个代表性数据集上分别比基准线提高了 11.58％、6.89％、5.07％和 4.38％、2.85％、2.74％的 Pass@1 指标。

Oct, 2023

API-BLEND：用于训练和基准测试 API LLM 的全面语料库

本文介绍了 API-BLEND 数据集，用于训练和基准测试工具增强的大型语言模型，数据集模拟了涉及 API 任务的实际情境，如 API / 工具检测、插槽填充和检测到的 API 排序。

Feb, 2024

LILO：通过压缩和文档化代码学习可解释的代码库

通过 LILO，结合大型语言模型和自动重构算法，迭代地合成、压缩和文档化代码，构建针对特定问题领域的代码库，提高人类可读性并改进综合性能。

Oct, 2023