Feb, 2024

TOOLVERIFIER:通过自验证实现针对新工具的泛化

TL;DR通过自我验证方法,在语言模型中学习使用工具是构建通用助手的重要里程碑,但仍然是一个尚未解决的问题。本研究介绍了一种通过自我对比问题在工具选择和参数生成过程中区分相似候选项的方法。在 ToolBench 基准测试的四个任务上进行了大量实验,包括了 17 个之前未见的工具,结果显示相较于少样本基准线平均提高了 22%,即使在候选工具之间的区别非常微妙的情况下也能有效改进。