Apr, 2023

API-Bank: 工具增强型 LLMs 的基准测试

TL;DR本文介绍了 API-Bank,它是第一个为工具增强的 LLMs 定制的基准测试,旨在全面评估 LLMs 规划逐步 API 调用、检索相关 API 和正确执行 API 调用以满足人类需求的能力,实验结果表明,GPT-3.5 在使用工具方面比 GPT3 有更好的性能,虽然 GPT-4 在规划性能方面更强,但仍有继续改进的空间,此外,详细的错误分析和案例研究证明了工具增强 LLMs 的可行性以及未来需要解决的主要挑战。