巨猩:与大规模 API 连接的大型语言模型
通过引入 ToolLLM,一个包括数据构建、模型训练和评估的通用工具使用框架,我们展示了它在增强自然语言模型的规划和推理能力方面的显著影响。我们通过用 ChatGPT 创建一个工具使用指导数据集 ToolBench,并使用深度优先搜索决策树(DFSDT)扩展搜索空间,有效地获取有效的解决方案路径。通过对 LLaMA 进行微调后得到 ToolLLaMA,我们的评估器 ToolEval 显示 ToolLLaMA 在执行复杂指令和推广到未见过的 API 方面表现出卓越的能力,并与 ChatGPT 有着相当的性能。为了使流程更加实用,我们设计了一个神经 API 检索器以为每个指令推荐适当的 API,省去了手动选择 API 的繁琐步骤。
Jul, 2023
利用大型语言模型在软件 API 调用中的提高性能和准确性,通过编译和微调 API 结构和语法,使用条件屏蔽技术确保输出符合预期格式并减少错误率,提出了评估 LLM 在 API 互动中有效性的新基准,并证明了 fine-tuned 模型 Octopus 对于软件 API 调用具有比 GPT-4 更好的性能,推动自动化软件开发和 API 集成的发展,实现了 LLM 能力与实际软件工程应用需求的实质性进展。
Apr, 2024
近期,在自然语言处理方面的最新进展中,大型语言模型(LLM)得到了广泛应用,它们在上下文学习下表现出良好性能,甚至适用于未知的任务和语言。然而,它们在非洲语言上的性能尚不清楚。我们研究了三种广泛使用的大型语言模型(mT0,LLaMa 2 和 GPT-4)在 30 种非洲语言上的五个任务(新闻主题分类,情感分类,机器翻译,问答和命名实体识别)的表现。结果显示,所有的大型语言模型在非洲语言上的表现都低于水平,与英语等高资源语言相比,性能差距较大。我们发现,GPT-4 在分类任务上表现平均或令人印象深刻,但在机器翻译等生成任务上表现非常糟糕。令人惊讶的是,我们发现 mT0 在非洲语言上的跨语言问答表现最佳,超过了最先进的有监督模型(即,微调的 mT5)和 GPT-4 的表现。总体而言,由于 LLaMa 2 具有有限的多语言能力和以英语为中心的预训练语料库,因此其表现最差。总的来说,我们的研究结果呼吁确保非洲语言在大型语言模型中得到很好的代表,因为这些模型越来越受欢迎。
Nov, 2023
本文介绍了 API-Bank,它是第一个为工具增强的 LLMs 定制的基准测试,旨在全面评估 LLMs 规划逐步 API 调用、检索相关 API 和正确执行 API 调用以满足人类需求的能力,实验结果表明,GPT-3.5 在使用工具方面比 GPT3 有更好的性能,虽然 GPT-4 在规划性能方面更强,但仍有继续改进的空间,此外,详细的错误分析和案例研究证明了工具增强 LLMs 的可行性以及未来需要解决的主要挑战。
Apr, 2023
本文研究大型语言模型(LLMs)对人工智能研究的影响。通过以 GPT3.5 / ChatGPT3.4 和 ChatGPT 4 为例,我们展示这些模型具有什么样的功能,并且这些模型令人们瞩目的领域覆盖速度证明了这个趋势正在逐渐变成实现通用智能的强劲迹象。这些模型的创新也将随着这些人工智能系统的成熟而扩大,并将展示出在我们社会的多个方面具有重要影响的不可预见的应用。
May, 2023
人类与动物之间的区别在于人类可以使用和创造工具,而使大型语言模型具备学习外部工具使用的能力可以成为实现人工智能的重要一步。本研究引入了一种新的工具调用管道,设计用于控制庞大的真实世界应用程序接口,通过 ` 从摘要到行动 ' 的 Sum2Act 管道,在复杂的真实用户查询中模拟人类解决问题的过程,从而提高了大型语言模型的性能,优于现有的方法。
Feb, 2024
本文提出了一种基于 RESTful API 的大型语音模型连接方法,引入 RestGPT 进行规划和 API 使用,特别设计了 API executor 来制定参数和解析 API 响应,实现了在复杂任务中取得卓越成果和具有强大鲁棒性,为人工通用智能铺平了一条新路。
Jun, 2023
聊天 GPT 通过开发的 MultiAPI 数据集评估了多模态任务中大型语言模型的表现,研究发现在 API 调用决策、领域识别、功能选择和参数生成等方面存在挑战,并提出了解决这些问题的新方法,为未来 LLM 研究指明了方向。
Nov, 2023
AI 领域近年来取得了显著的进展,尤其是基于变压器架构的强大大型语言模型(LLMs)的出现。本文介绍了一种创新的 LLM 推理方法,展望了在无需网络连接的情况下,拥有数十亿参数的 LLMs 可以直接在移动设备上执行的未来。该应用程序不仅作为一个通用助手,而且通过原生代码和模型量化技术的结合,还可以实现与文本到动作功能的无缝移动交互。文章还提供了关于本地 LLM 推理的训练流程、实现细节、测试结果和未来方向的见解。这一突破性技术为用户提供了强大的人工智能能力,同时保护了用户的隐私并消除了延迟问题。
Sep, 2023
该研究分析了使用大型语言模型的成本,并提出了三种降低推理成本的策略,包括提示适应,LLM 近似和 LLM 级联。 基于这些策略,我们提出了 FrugalGPT,它可以使用不同的组合来降低成本并提高准确性。
May, 2023