Jan, 2025
ToolHop: 一个用于评估大型语言模型多跳工具使用的查询驱动基准
ToolHop: A Query-Driven Benchmark for Evaluating Large Language Models
in Multi-Hop Tool Use
TL;DR本研究解决了大型语言模型(LLMs)在多跳工具使用评估中的可靠数据集缺乏问题,提出了ToolHop数据集,包含995个用户查询和3,912个相关工具。通过一种新颖的查询驱动数据构建方法,ToolHop确保了查询的多样性和工具的本地可执行性,为进一步提升LLMs的多跳工具使用能力提供了重要数据支持。