TOOLVERIFIER：通过自验证实现针对新工具的泛化

Feb, 2024

TOOLVERIFIER：通过自验证实现针对新工具的泛化

TOOLVERIFIER: Generalization to New Tools via Self-Verification

Dheeraj Mekala, Jason Weston, Jack Lanchantin, Roberta Raileanu, Maria Lomeli...

TL;DR通过自我验证方法，在语言模型中学习使用工具是构建通用助手的重要里程碑，但仍然是一个尚未解决的问题。本研究介绍了一种通过自我对比问题在工具选择和参数生成过程中区分相似候选项的方法。在 ToolBench 基准测试的四个任务上进行了大量实验，包括了 17 个之前未见的工具，结果显示相较于少样本基准线平均提高了 22％，即使在候选工具之间的区别非常微妙的情况下也能有效改进。

Abstract

Teaching language models to use tools is an important milestone towards building general assistants, but remains an open problem. While there has been significant progress on learning to use specific

language models tools self-verification method few-shot learning toolbench benchmark

发现论文，激发创造

Toolformer：语言模型可以自学使用工具

本文提出 Toolformer 模型，利用简单的 API 可以帮助语言模型自动完成一些功能，如计算或答疑系统，并显著提高其在一些下游任务上的表现。

Feb, 2023

利用大型语言模型的迭代反馈增强工具检索

通过迭代反馈的方式，提高大型语言模型对工具检索的理解，从而在领域内外的评估中取得卓越表现。

Jun, 2024

ToolQA: 一个带有外部工具的 LLM 问答数据集

为了有效评估 Large Language Models（LLMs）使用外部工具回答问题的能力，我们开发了一个名为 ToolQA 的新数据集，并使用可伸缩的自动化过程进行数据集的管理，并使用 13 种专门设计的工具进行交互以回答问题。

Jun, 2023

着眼决策感知和通用化的大规模语言模型工具使用

通过提出一种决策感知和具有一般化的工具使用框架（DEER），本文旨在增强开源 LLMs 在操作工具方面的能力。通过构建工具使用样本和新颖的工具采样策略，DEER 在各个数据集上证明了其有效性和显著优于基准模型。

Feb, 2024

ToolAlpaca：3000 个模拟案例的通用工具学习语言模型

本文介绍了一种名为 ToolAlpaca 的新框架，旨在利用最少的人为干预，在紧凑的语言模型上生成工具使用语料库并学习广义工具使用能力。实验结果表明，ToolAlpaca 实现了与 GPT-3.5 等极其大型语言模型相当的有效广义工具使用能力，证实了紧凑语言模型的学习广义工具使用能力是可行的。

Jun, 2023

辅助工具生成策略的综合评估

通过对不同策略的系统和公平比较，本研究发现强大的无工具基准线策略与工具辅助策略竞争力相当，暗示有效地使用具有上下文演示的工具仍是一个困难的未解决问题；对于知识检索任务，使用工具对错误输出进行改进的策略优于提前或在生成过程中检索相关信息的策略；使用工具的策略在需要工作的标记数量上是昂贵的，造成了显著的性能改善，但这并不意味着将其转化为实质性的性能提升。总之，我们的研究结果表明，少样本工具集成仍然是一个待解决的挑战，强调了对未来策略的全面评估来准确评估其效益和成本的需求。

Oct, 2023

大型语言模型是具有自我验证功能的推理器

提出了一种名为自验证的方法，该方法使用推理链的结论作为条件建立新的样本，并要求大型语言模型重新预测原始条件，从而降低了多任务精度误差。经过大量实验验证，此方法可以使大型语言模型避免出现不正确的推理链干扰，并实现具有竞争力的推理性能，可用于算术和逻辑推理数据集的有限次学习。

Dec, 2022

为金融中的表格数据分析赋予语言模型工具使用能力

通过使用外部工具对语言模型进行增强，可缓解传播误差和幻觉等挑战，特别是在数据异构、精确性至关重要的金融领域。我们将监督微调应用于 LLaMA-2 13B Chat 模型，使其成为 ' 任务路由器 ' 和 ' 任务解决器 '。通过使用金融领域的问答数据集，我们的模型 Raven 在改进基准模型和仅进行监督微调的基线模型上分别显示了 35.2% 和 5.06% 的改进，并且与 GPT-3.5 取得了很好的竞争效果。据我们所知，这是首个探索对金融领域的语言模型进行工具增强的研究。

Jan, 2024

元工具基准：决定是否使用工具以及选择哪个工具

本文提出了 MetaTool，这是一个用于评估大型语言模型（LLMs）的工具使用意识和正确选择工具能力的基准测试，并通过实验证明大多数 LLMs 在工具选择方面仍然存在困难。

Oct, 2023

GPT4Tools: 通过自我学习教授大型语言模型使用工具

本文提出了一种名为 GPT4Tools 的方法，利用自我指导生成指令遵循的数据集，并利用 LoRA 优化，使开源 LLMs 解决一系列视觉问题，如视觉理解和图像生成。经过广泛实验，表明该方法不仅显著提高了调用已知工具的准确性，而且还使得未知工具具有零 - shot 能力。

May, 2023