受限预算下的工具学习与规划
通过 Tool-Planner 框架,基于 API 函数将工具分组成一个工具包,允许大型语言模型在不同工具包之间实现计划,解决了冗余错误校正和多工具之间正确计划的挑战,实验表明该方法在不同数据集上具有很高的通过率和胜率,并优化了 GPT-4 和 Claude 3 等模型中工具学习的计划方案,展示了我们方法的潜力。
Jun, 2024
本文引入了一个形式化的训练模式:在有限资源(预算)约束下的训练,分析了在此模式下的学习率调整方法,通过在多个任务数据集上的实验验证了线性衰减方法的优秀表现,并强调了在该模式下的预算收敛现象的重要性。
May, 2019
多任务学习中,标签预算分配问题会对整体性能产生显著影响。本文提出了一种任务自适应预算分配算法,通过在不同的多任务学习环境中估计和最大化分配预算的新信息程度,优化多任务学习性能。在 PASCAL VOC 和 Taskonomy 上的实验表明,与其他常用的启发式标签策略相比,我们的方法具有明显的效果。
Aug, 2023
本文首次定义了有约束语言规划的任务,并提出了一种过度生成和过滤的方法,以提高大语言模型在此任务中的性能,并使用此方法提取了一个由 55,000 个脚本组成的 CoScript 数据集,并在实验结果中证明了我们的方法显着提高了大型语言模型的有约束语言规划能力,特别是在约束忠实度方面。此外,CoScript 证明对于赋予较小语言模型具有受限语言规划能力是相当有效的。
May, 2023
通过引入一种新的模型名为 “Plan-and-Retrieve (P&R)” 和 “Edit-and-Ground (E&G)” 的方法,本文提出了一种集成外部工具与大型语言模型的新方法,显著提高了工具检索任务的召回率和 NDCG,并超越了当前最先进的模型。
Mar, 2024
基于深度学习的抓取预测模型已成为机器人拣选系统的行业标准,在工业生产环境中,为了最大化捡取成功率,通常配备多个末端执行器工具,但工具更换需要时间。本文探讨了抓取顺序和相应的工具更换操作如何改善系统吞吐量,提出了一种基于 Markov 决策过程的近似解法,通过考虑未知物体的存在,引入虚空区域的概念,并结合稀疏树搜索,取得了近乎最优的性能表现。同时,本文提出了一种度量工具更换规划性能的新方法,并在合成和真实世界的拣选任务环境下进行了演示。
Feb, 2023
本文介绍了两种方法来改善 POCL 规划器的性能,包括使用有监督学习算法优化 POCL 规划器和使用在线误差最小化方法进一步提高模型的信息量。实验证明,这些学习方法可扩展规划器的性能,特别是在处理较大问题时更为有效。
Jan, 2016
本文提出了一种新的方法,通过引入预算感知调度(BCS)扩展了 Deep Dyna-Q(DDQ),以最大限度地利用固定的少量用户交互(预算)来学习面向任务的对话代理。实验表明,在固定预算的情况下,与现有技术相比,我们的方法在虚拟和真实用户下都显著提高了成功率。
Jun, 2019
通过提出一种决策感知和具有一般化的工具使用框架(DEER),本文旨在增强开源 LLMs 在操作工具方面的能力。通过构建工具使用样本和新颖的工具采样策略,DEER 在各个数据集上证明了其有效性和显著优于基准模型。
Feb, 2024
通过自我验证方法,在语言模型中学习使用工具是构建通用助手的重要里程碑,但仍然是一个尚未解决的问题。本研究介绍了一种通过自我对比问题在工具选择和参数生成过程中区分相似候选项的方法。在 ToolBench 基准测试的四个任务上进行了大量实验,包括了 17 个之前未见的工具,结果显示相较于少样本基准线平均提高了 22%,即使在候选工具之间的区别非常微妙的情况下也能有效改进。
Feb, 2024