受限预算下的工具学习与规划

Feb, 2024

Budget-Constrained Tool Learning with Planning

Yuanhang Zheng, Peng Li, Ming Yan, Ji Zhang, Fei Huang...

TL;DR本文提出了一种应对预算约束的工具学习的新方法，通过在利用工具之前创建一个在预算约束下可行的计划，给出了大规模语言模型中工具学习过程的全面概述，从更广泛的角度来分配预算。该方法主要涉及创建一个可行的计划和指定候选工具的最大使用次数，将过去的经验用于候选工具的有效性估计，并通过动态规划来制定计划。实验结果表明，我们的方法可以与各种工具学习方法相结合，在严格的预算约束下显著提高其效果。

Abstract

Despite intensive efforts devoted to tool learning, the problem of budget-constrained tool learning, which focuses on resolving user queries within a specific budget constraint, has been widely overlooked. This paper proposes a novel method for →

budget-constrained tool learning preferable plan feasible tools maximum number of times large language models

发现论文，激发创造

Tool-Planner: 大型语言模型的动态解决方案树规划与工具聚类

通过 Tool-Planner 框架，基于 API 函数将工具分组成一个工具包，允许大型语言模型在不同工具包之间实现计划，解决了冗余错误校正和多工具之间正确计划的挑战，实验表明该方法在不同数据集上具有很高的通过率和胜率，并优化了 GPT-4 和 Claude 3 等模型中工具学习的计划方案，展示了我们方法的潜力。

Jun, 2024

预算训练：重新思考资源约束下的深度神经网络训练

本文引入了一个形式化的训练模式：在有限资源（预算）约束下的训练，分析了在此模式下的学习率调整方法，通过在多个任务数据集上的实验验证了线性衰减方法的优秀表现，并强调了在该模式下的预算收敛现象的重要性。

May, 2019

多任务学习中的标签预算分配

多任务学习中，标签预算分配问题会对整体性能产生显著影响。本文提出了一种任务自适应预算分配算法，通过在不同的多任务学习环境中估计和最大化分配预算的新信息程度，优化多任务学习性能。在 PASCAL VOC 和 Taskonomy 上的实验表明，与其他常用的启发式标签策略相比，我们的方法具有明显的效果。

Aug, 2023

从大型语言模型中提取脚本知识以进行受限语言规划

本文首次定义了有约束语言规划的任务，并提出了一种过度生成和过滤的方法，以提高大语言模型在此任务中的性能，并使用此方法提取了一个由 55,000 个脚本组成的 CoScript 数据集，并在实验结果中证明了我们的方法显着提高了大型语言模型的有约束语言规划能力，特别是在约束忠实度方面。此外，CoScript 证明对于赋予较小语言模型具有受限语言规划能力是相当有效的。

May, 2023

计划和编辑检索结果以提高工具学习

通过引入一种新的模型名为 “Plan-and-Retrieve (P&R)” 和 “Edit-and-Ground (E&G)” 的方法，本文提出了一种集成外部工具与大型语言模型的新方法，显著提高了工具检索任务的召回率和 NDCG，并超越了当前最先进的模型。

Mar, 2024

利用学习的抓取预测模型进行在线工具选择

基于深度学习的抓取预测模型已成为机器人拣选系统的行业标准，在工业生产环境中，为了最大化捡取成功率，通常配备多个末端执行器工具，但工具更换需要时间。本文探讨了抓取顺序和相应的工具更换操作如何改善系统吞吐量，提出了一种基于 Markov 决策过程的近似解法，通过考虑未知物体的存在，引入虚空区域的概念，并结合稀疏树搜索，取得了近乎最优的性能表现。同时，本文提出了一种度量工具更换规划性能的新方法，并在合成和真实世界的拣选任务环境下进行了演示。

Feb, 2023

在计划空间规划中学习和调优元启发式算法

本文介绍了两种方法来改善 POCL 规划器的性能，包括使用有监督学习算法优化 POCL 规划器和使用在线误差最小化方法进一步提高模型的信息量。实验证明，这些学习方法可扩展规划器的性能，特别是在处理较大问题时更为有效。

Jan, 2016

面向任务导向对话系统的预算策略学习

本文提出了一种新的方法，通过引入预算感知调度（BCS）扩展了 Deep Dyna-Q（DDQ），以最大限度地利用固定的少量用户交互（预算）来学习面向任务的对话代理。实验表明，在固定预算的情况下，与现有技术相比，我们的方法在虚拟和真实用户下都显著提高了成功率。

Jun, 2019

着眼决策感知和通用化的大规模语言模型工具使用

通过提出一种决策感知和具有一般化的工具使用框架（DEER），本文旨在增强开源 LLMs 在操作工具方面的能力。通过构建工具使用样本和新颖的工具采样策略，DEER 在各个数据集上证明了其有效性和显著优于基准模型。

Feb, 2024

TOOLVERIFIER：通过自验证实现针对新工具的泛化

通过自我验证方法，在语言模型中学习使用工具是构建通用助手的重要里程碑，但仍然是一个尚未解决的问题。本研究介绍了一种通过自我对比问题在工具选择和参数生成过程中区分相似候选项的方法。在 ToolBench 基准测试的四个任务上进行了大量实验，包括了 17 个之前未见的工具，结果显示相较于少样本基准线平均提高了 22％，即使在候选工具之间的区别非常微妙的情况下也能有效改进。

Feb, 2024