ControlLLM: 通过在图上搜索来增强语言模型的工具
ART框架使用冻结的LLM自动生成中间推理步骤作为程序,并能无缝集成生成和外部工具使用,使得在BigBench和MMLU基准测试中,通过自动CoT和few-shot提示,ART实现了对未知任务的实质性改进。在选定的任务上,人们可以通过纠正特定的程序错误或整合新工具来改善ART的性能.
Mar, 2023
本篇论文提出了一种基于大型语言模型的视觉中心任务框架VisionLLM,通过将图像视为一种外语并使用语言指令对其进行灵活定义和管理,从而统一了视觉和语言任务的视角,具有不同级别的任务定制能力,成为一种通用的视觉和语言模型。
May, 2023
该研究提出了一种基于大型语言模型(LLMs)的闭环框架LLMs As Tool Makers(LATM),通过该框架,LLMs可以自己创建可重用的工具以解决问题,并验证了该方法在包括Big-Bench任务在内的复杂推理任务中的有效性,使用GPT-4作为工具制造者和GPT-3.5作为工具用户,LATM的性能与使用GPT-4制造和使用工具的性能相当,而推理成本显著降低。
May, 2023
GEAR是一种计算高效的查询工具接地算法,能够在不依赖任务特定演示的情况下,提供任务特定工具的使用,并且具有更高的计算效率和较高的工具接地精确性。
Jul, 2023
通过引入ToolLLM,一个包括数据构建、模型训练和评估的通用工具使用框架,我们展示了它在增强自然语言模型的规划和推理能力方面的显著影响。我们通过用ChatGPT创建一个工具使用指导数据集ToolBench,并使用深度优先搜索决策树(DFSDT)扩展搜索空间,有效地获取有效的解决方案路径。通过对LLaMA进行微调后得到ToolLLaMA,我们的评估器ToolEval显示ToolLLaMA在执行复杂指令和推广到未见过的API方面表现出卓越的能力,并与ChatGPT有着相当的性能。为了使流程更加实用,我们设计了一个神经API检索器以为每个指令推荐适当的API,省去了手动选择API的繁琐步骤。
Jul, 2023
我们提出了一个新的基准测试CoDI-Eval,系统和全面评估LLMs对带有各种约束的指令的响应,揭示了它们在按照特定约束执行指令方面的局限性和开源与闭源LLMs之间存在显著差距。
Jan, 2024
ToolNet是一个可拔插的框架,通过将工具组织成有向图的方式,使大语言模型能够处理成千上万个工具,并通过迭代选择来解决问题,从而在具有挑战性的多跳工具学习数据集中取得显著结果,并且具有工具故障的弹性。
Feb, 2024
通过自动工具链和黑盒探测方法,为大型语言模型提供了扩展功能,使其成为多工具用户,能够主动发现和使用新工具,从而解决实际任务中的规划和工具选择的挑战。
May, 2024
通过引入适应性框架Ctrl-G,该研究提出了一种可实现对大型语言模型的可控生成的方法,并将其应用于交互文本编辑和有限状态自动机表示的逻辑约束,结果显示Ctrl-G在人类评估中相比于GPT4以及GPT3.5取得了30%以上的满意率提升,并在标准基准测试中超越了中型语言模型。此外,该研究还进行了Grade School Math基准测试作为概念验证,展示了Ctrl-G在辅助大型语言模型推理方面的潜力。
Jun, 2024
本研究针对大型语言模型(LLMs)在特定复杂任务中效率和准确性不足的问题,提出了一种教学LLMs使用外部工具的标准化方法。该论文的主要发现揭示了LLMs如何在理解用户意图和动态调整计划的基础上,克服工具选择和调用时机等挑战,探索了从工具使用者转变为工具创造者的新视角。
Sep, 2024