ICLRNov, 2023

工具对话:在对话场景中评估工具使用

TL;DR使用大型语言模型(LLMs)来拓展助手功能,提供对私人或最新信息的访问和用户代理人操作行为的量化评估工具,称为 ToolTalk。该工具包括 28 个工具和 7 个插件,模拟实现每个工具,并强调对外部世界产生影响的工具。通过在 GPT-3.5 和 GPT-4 上应用 ToolTalk 评估,找出错误类别并提出改进方向。