利用大型语言模型的迭代反馈增强工具检索

Jun, 2024

利用大型语言模型的迭代反馈增强工具检索

Enhancing Tool Retrieval with Iterative Feedback from Large Language Models

Qiancheng Xu, Yongqi Li, Heming Xia, Wenjie Li

TL;DR通过迭代反馈的方式，提高大型语言模型对工具检索的理解，从而在领域内外的评估中取得卓越表现。

Abstract

tool learning aims to enhance and expand large language models' (LLMs) capabilities with external tools, which has gained significant attention recently. Current methods have shown that LLMs can effectively handl

tool learning large language models tool retrieval iterative feedback benchmark

发现论文，激发创造

COLT: 面向大型语言模型的完整性导向工具检索

通过 COLT 模型，可以实现与用户查询语义相似并具有协同关系的工具的检索，该模型在工具检索方面的性能超过了参数更多的 BERT-large (340M) 模型，并公开发布了 ToolLens 数据集以支持进一步的工具检索研究。

May, 2024

计划和编辑检索结果以提高工具学习

通过引入一种新的模型名为 “Plan-and-Retrieve (P&R)” 和 “Edit-and-Ground (E&G)” 的方法，本文提出了一种集成外部工具与大型语言模型的新方法，显著提高了工具检索任务的召回率和 NDCG，并超越了当前最先进的模型。

Mar, 2024

大语言模型的工具学习：综述

最近，利用大型语言模型（LLMs）进行工具学习已经成为增强 LLMs 能力以解决高度复杂问题的一种有前景的范式。尽管这一领域受到越来越多关注和快速发展，但现有文献仍然零散且缺乏系统组织，对于新手来说存在进入障碍。本文通过对现有关于 LLMs 工具学习的文献进行综述，旨在探讨为什么工具学习有益以及如何实现工具学习，从而全面了解 LLMs 工具学习。首先，我们通过从六个具体方面回顾工具整合的益处以及工具学习范式的内在益处来探讨 “为什么”。在 “如何” 方面，我们根据工具学习工作流程的四个关键阶段（任务规划、工具选择、工具调用和响应生成）系统综述了现有文献。此外，我们还详细总结了现有的基准和评估方法，并根据其与不同阶段的相关性进行分类。最后，我们讨论了当前的挑战，并概述了潜在的未来方向，旨在鼓励研究人员和工业开发者进一步探索这一新兴而有前景的领域。

May, 2024

朝实用性工具使用的方向：为不断学习的 LLMs 而努力

大型语言模型具有解决语言相关任务的天赋，但由于它们静止于参数中的知识的局限性，存在无法应对信息变化和任务技能过时的问题。工具使用能帮助 LLM 通过接口获得外部系统的支持，但使用工具的 LLM 仍需适应不稳定的环境，并且需要学会使用预定义的工具。为验证这一观点，我们开发了一个合成基准并聚合了现有的自然语言处理任务，形成一个更加真实的测试场景。我们证明模型规模扩大并非解决方案，而不论是否使用工具，持续学习技术都能使工具型 LLM 更快适应并遗忘更少，凸显了它们作为持续学习者的潜力。

Apr, 2024

通过即插即用检索反馈改进语言模型

本文提出了一种名为 ReFeed 的新型管道，通过提供自动检索反馈，以更高效和经济的方式改善大语言模型的输出，并在零样本和少样本设置下显著提高结果。

May, 2023

孔子：通过易到难课程反思反馈的迭代式工具学习

利用 Confucius 框架来扩充大型语言模型的能力，使其能够在真实世界应用场景中学习并使用复杂的外部工具。

Aug, 2023

在 Imaginarium 中的 LLMs: 通过模拟试错学习工具

提出了一种仿生的方法，即模拟试错（STE），通过协调三个关键机制：试错、想象和记忆，为工具增强的大型语言模型（LLMs）提供成功使用工具的行为。通过在 ToolBench 上进行的综合实验，证明 STE 在上下文学习和微调设置下显著改善了 LLMs 的工具学习，为 Mistral-Instruct-7B 带来了 46.7% 的提升，并使其胜过 GPT-4。同时还展示了通过简单的经验重放策略有效地进行工具的持续学习。

Mar, 2024

大型语言模型作为工具制造者

该研究提出了一种基于大型语言模型 (LLMs) 的闭环框架 LLMs As Tool Makers (LATM)，通过该框架，LLMs 可以自己创建可重用的工具以解决问题，并验证了该方法在包括 Big-Bench 任务在内的复杂推理任务中的有效性，使用 GPT-4 作为工具制造者和 GPT-3.5 作为工具用户，LATM 的性能与使用 GPT-4 制造和使用工具的性能相当，而推理成本显著降低。

May, 2023

个性化大型语言模型的优化方法：通过检索增强

本研究论文探讨了扩展的检索方法用于个性化大型语言模型，通过两种优化算法从下游任务获取反馈进行检索优化，并引入了一个预生成和后生成的检索模型来决定每个语言模型输入应选择哪个检索器。在多个任务中进行了大量实验，并获得了显著的统计结果。

Apr, 2024

ProTIP：渐进式工具检索改进规划

ProTIP 是一种轻量级、基于对比学习的框架，可以在不需要明确的子任务标签的情况下隐式地进行任务分解，同时保持子任务与工具的原子性。在 ToolBench 数据集上，ProTIP 相比于基于 ChatGPT 的任务分解方法，在工具检索和计划生成方面取得了显著的性能提升，检索召回率提高了 24%，工具准确性提高了 41%。

Dec, 2023