ToolEyes：大规模语言模型在实际场景中工具学习能力的细粒度评估

Jan, 2024

ToolEyes：大规模语言模型在实际场景中工具学习能力的细粒度评估

ToolEyes: Fine-Grained Evaluation for Tool Learning Capabilities of Large Language Models in Real-world Scenarios

Junjie Ye, Guanyu Li, Songyang Gao, Caishuang Huang, Yilong Wu...

TL;DR现有对工具学习的评估主要集中在验证大型语言模型（LLMs）与预期结果的工具选择的一致性上。然而，这些方法依赖于一组有限的可以预先确定答案的场景，与真实需求相背离。此外，过于关注结果忽略了LLMs有效利用工具所必需的复杂能力。为解决这个问题，我们提出了ToolEyes，一个精细的系统，用于评估LLMs在真实场景中的工具学习能力。该系统细致地检查了七个现实世界的场景，分析了对LLMs在工具学习中至关重要的五个方面：格式对齐、意图理解、行为规划、工具选择和答案组织。此外，ToolEyes还采用了一个拥有约600个工具的工具库，充当LLMs与物理世界之间的中介。涉及三个类别的十个LLMs的评估结果表明对特定场景有偏好，并且在工具学习方面的认知能力有限。有趣的是，模型尺寸的扩大甚至加剧了对工具学习的阻碍。这些发现提供了对推动工具学习领域的有益见解。

Abstract

Existing evaluations of tool learning primarily focus on validating the alignment of selected tools for large language models (LLMs) with expected outcomes. However, these approaches rely on a limited set of