GEAR: 增强语言模型的通用和高效工具分辨性能
通过提出一种决策感知和具有一般化的工具使用框架(DEER),本文旨在增强开源 LLMs 在操作工具方面的能力。通过构建工具使用样本和新颖的工具采样策略,DEER 在各个数据集上证明了其有效性和显著优于基准模型。
Feb, 2024
通过使用外部工具对语言模型进行增强,可缓解传播误差和幻觉等挑战,特别是在数据异构、精确性至关重要的金融领域。我们将监督微调应用于 LLaMA-2 13B Chat 模型,使其成为 ' 任务路由器 ' 和 ' 任务解决器 '。通过使用金融领域的问答数据集,我们的模型 Raven 在改进基准模型和仅进行监督微调的基线模型上分别显示了 35.2% 和 5.06% 的改进,并且与 GPT-3.5 取得了很好的竞争效果。据我们所知,这是首个探索对金融领域的语言模型进行工具增强的研究。
Jan, 2024
本研究提出了一种名为 ToolkenGPT 的方法,通过 in-context learning 实现大量工具集的无缝扩展,从而有效提升了 LLM 在数字推理、问题回答和行动计划生成等领域中的性能表现。
May, 2023
为了有效评估 Large Language Models(LLMs) 使用外部工具回答问题的能力,我们开发了一个名为 ToolQA 的新数据集,并使用可伸缩的自动化过程进行数据集的管理,并使用 13 种专门设计的工具进行交互以回答问题。
Jun, 2023
本研究探讨了利用工具增强大规模语言模型在处理复杂环境中的潜力,并通过在知识库和数据库等复杂环境中的实证来展示这种潜力。结果表明,配备这些工具的 GPT-4 在需要访问数据库内容的任务中性能提高了 2.8 倍,在知识库任务中提高了 2.2 倍。这些发现为在复杂实际应用中推进语言模型的发展指明了方向。
Feb, 2024
本文提出了 MetaTool,这是一个用于评估大型语言模型(LLMs)的工具使用意识和正确选择工具能力的基准测试,并通过实验证明大多数 LLMs 在工具选择方面仍然存在困难。
Oct, 2023
通过引入一种新的模型名为 “Plan-and-Retrieve (P&R)” 和 “Edit-and-Ground (E&G)” 的方法,本文提出了一种集成外部工具与大型语言模型的新方法,显著提高了工具检索任务的召回率和 NDCG,并超越了当前最先进的模型。
Mar, 2024
该研究提出了一种基于大型语言模型 (LLMs) 的闭环框架 LLMs As Tool Makers (LATM),通过该框架,LLMs 可以自己创建可重用的工具以解决问题,并验证了该方法在包括 Big-Bench 任务在内的复杂推理任务中的有效性,使用 GPT-4 作为工具制造者和 GPT-3.5 作为工具用户,LATM 的性能与使用 GPT-4 制造和使用工具的性能相当,而推理成本显著降低。
May, 2023
本研究提出了一种 LLm-Augmenter 系统,它通过使用存储在特定任务数据库中的外部知识和迭代地根据效用函数生成的反馈来改善 LLM 的提示,从而使其生成基于外部知识的响应,实现了应用到任务导向对话和问题回答的实际场景中,显著减少 ChatGPT 模型的幻觉。
Feb, 2023
通过自我验证方法,在语言模型中学习使用工具是构建通用助手的重要里程碑,但仍然是一个尚未解决的问题。本研究介绍了一种通过自我对比问题在工具选择和参数生成过程中区分相似候选项的方法。在 ToolBench 基准测试的四个任务上进行了大量实验,包括了 17 个之前未见的工具,结果显示相较于少样本基准线平均提高了 22%,即使在候选工具之间的区别非常微妙的情况下也能有效改进。
Feb, 2024