Jun, 2024

APIGen:生成可验证和多样化函数调用数据集的自动化流水线

TL;DR该论文介绍了APIGen,一种自动化数据生成方法,旨在合成可验证的高质量数据集以支持函数调用应用。通过APIGen,作者收集了21个不同类别的3,673个可执行API,以可扩展和有结构的方式生成多样的函数调用数据集。而且,通过三个层次的验证(格式检查、实际函数执行和语义验证),确保了数据集的可靠性和正确性。作者演示了即使只有7B参数,使用他们精选的数据集进行训练的模型也能在伯克利函数调用基准测试中取得最先进的性能,超过多个GPT-4模型。此外,他们的1B模型取得了出色的性能,超越了GPT-3.5-Turbo和Claude-3 Haiku。作者发布了一个包含60,000个高质量条目的数据集,旨在推动函数调用代理领域的发展。此数据集可在Huggingface(链接)和项目主页(链接)上获取。