Apr, 2023
API-Bank: 工具增强型LLMs的基准测试
API-Bank: A Benchmark for Tool-Augmented LLMs
TL;DR本文介绍了API-Bank,它是第一个为工具增强的LLMs定制的基准测试,旨在全面评估LLMs规划逐步API调用、检索相关API和正确执行API调用以满足人类需求的能力,实验结果表明,GPT-3.5在使用工具方面比GPT3有更好的性能,虽然GPT-4在规划性能方面更强,但仍有继续改进的空间,此外,详细的错误分析和案例研究证明了工具增强LLMs的可行性以及未来需要解决的主要挑战。