Feb, 2024

API Pack:用于 API 调用生成的大规模多语言数据集

TL;DR我们介绍了 API Pack,这是一个包含超过一百万个指令 - API 调用对的多语言数据集,旨在提高大型语言模型的 API 调用生成能力。通过实验,我们证明了 API Pack 在增强这一专业任务的模型能力方面的有效性,同时保持了其对于一般编码的整体熟练程度。通过使用仅 20000 个 Python 实例对 CodeLlama-13B 进行微调,其在生成未见过的 API 调用方面的准确性比 GPT-3.5 和 GPT-4 分别提高了 10% 和 5%。扩展到 100k 个示例可以提高对训练过程中未见过的新 API 的泛化能力。此外,可以实现跨语言的 API 调用生成,而不需要大量的单语言数据。该数据集、微调模型和整体代码基础公开可用于此 URL。