Jul, 2024

GTA:通用工具代理的基准测试

TL;DR我们提出了GTA,作为一个通用工具代理的基准,该基准包含真实用户查询、部署的工具和真实的多模态输入,评估大型语言模型在真实世界场景中的工具使用能力,并发现当前大型语言模型在实际任务中的表现存在瓶颈。