Jul, 2024

WTU-EVAL:面向大型语言模型的工具使用评估基准

TL;DR大型语言模型(LLMs)虽然在自然语言处理任务中表现出色,但仍需要外部工具来扩展其能力。本研究探索LLMs是否能够确定其能力边界并灵活使用工具,提出WTU-Eval基准评估来评估LLMs的性能,并通过细调数据集改善工具决策,结果显示LLMs在一般数据集中难以确定工具使用,并且错误的工具使用显著损害了LLMs的性能。