API-BLEND:用于训练和基准测试 API LLM 的全面语料库
本文介绍了 API-Bank,它是第一个为工具增强的 LLMs 定制的基准测试,旨在全面评估 LLMs 规划逐步 API 调用、检索相关 API 和正确执行 API 调用以满足人类需求的能力,实验结果表明,GPT-3.5 在使用工具方面比 GPT3 有更好的性能,虽然 GPT-4 在规划性能方面更强,但仍有继续改进的空间,此外,详细的错误分析和案例研究证明了工具增强 LLMs 的可行性以及未来需要解决的主要挑战。
Apr, 2023
聊天 GPT 通过开发的 MultiAPI 数据集评估了多模态任务中大型语言模型的表现,研究发现在 API 调用决策、领域识别、功能选择和参数生成等方面存在挑战,并提出了解决这些问题的新方法,为未来 LLM 研究指明了方向。
Nov, 2023
通过引入 ToolLLM,一个包括数据构建、模型训练和评估的通用工具使用框架,我们展示了它在增强自然语言模型的规划和推理能力方面的显著影响。我们通过用 ChatGPT 创建一个工具使用指导数据集 ToolBench,并使用深度优先搜索决策树(DFSDT)扩展搜索空间,有效地获取有效的解决方案路径。通过对 LLaMA 进行微调后得到 ToolLLaMA,我们的评估器 ToolEval 显示 ToolLLaMA 在执行复杂指令和推广到未见过的 API 方面表现出卓越的能力,并与 ChatGPT 有着相当的性能。为了使流程更加实用,我们设计了一个神经 API 检索器以为每个指令推荐适当的 API,省去了手动选择 API 的繁琐步骤。
Jul, 2023
人类与动物之间的区别在于人类可以使用和创造工具,而使大型语言模型具备学习外部工具使用的能力可以成为实现人工智能的重要一步。本研究引入了一种新的工具调用管道,设计用于控制庞大的真实世界应用程序接口,通过 ` 从摘要到行动 ' 的 Sum2Act 管道,在复杂的真实用户查询中模拟人类解决问题的过程,从而提高了大型语言模型的性能,优于现有的方法。
Feb, 2024
LLMs 在文化敏感性方面缺乏对日常生活的文化特定知识,不同于在线来源如维基百科,BLEnD 通过手工设计的基准评估了 LLMs 对多元文化和语言的日常知识,结果显示 LLMs 在高度在线代表的文化中表现更好,而在低资源语言文化中表现更好的是英语而非本地语言。
Jun, 2024
研究了在开源 LLM 中通过一定程度的人工监督和对数据进行生成和调整,将其在工具操作方面提升至与已有的闭源 LLM 相竞争的能力,同时设计了一个工具操纵基准进行了实验,结果表明,在大多数情况下,该方法可使其成功率提高至 90%。
May, 2023
近期大型语言模型(LLMs)的发展和成功需要对其在不同语言的各种 NLP 任务中的性能进行评估。本研究介绍了 LLMeBench 框架,该框架最初是为了使用 OpenAI 的 GPT 和 BLOOM 模型评估阿拉伯语 NLP 任务而开发的,但它可以轻松地定制任何 NLP 任务和模型,无论语言如何。该框架还具有零样本学习和少样本学习的设置。用户可以在不到 10 分钟的时间内添加新的自定义数据集,并使用自己的模型 API 密钥评估所需的任务。该框架已经在 31 个独特的 NLP 任务中进行了测试,涉及 53 个公开可用的数据集和大约 296K 个数据点的 90 个实验设置。我们计划将该框架开源给社区。在线上有演示视频供观看。
Aug, 2023
大型语言模型在互动环境中以多轮开放式生成的方式评估 LLMs 作为代理的推理和决策能力,显示出商业 LLMs 和开源竞争对手之间的性能差距。
Aug, 2023
该论文介绍了一个综合框架,旨在增强基于大型语言模型的代理在实际系统中的任务规划和工具使用能力,通过 API 检索器选择相关 API、LLM 精调器调整基础 LLM 以增强规划和 API 调用能力、以及演示选择器用于区分难以辨别的 API 并进行上下文学习,验证结果显示每个组件及整合框架的有效性。
Nov, 2023