微小智能体：边缘函数调用

Sep, 2024

TinyAgent: Function Calling at the Edge

Lutfi Eren Erdogan, Nicholas Lee, Siddharth Jha, Sehoon Kim, Ryan Tabrizi...

TL;DR本研究针对大规模语言模型在边缘部署中的不足，提出了TinyAgent框架，旨在培养和部署小型语言模型代理以进行函数调用。研究表明，TinyAgent-1.1B和7B模型的函数调用能力超过了诸如GPT-4-Turbo等较大模型，在边缘计算中表现出色，具有显著的应用潜力。

Abstract

Recent large language models (LLMs) have enabled the development of advanced Agentic Systems that can integrate various tools and APIs to fulfill user queries through Function Calling. However, the deployment of

发现论文，激发创造

AgentSims：用于大型语言模型评估的开放源码沙盒

使用AgentSims构建任务评估方法，解决现有评估方法的局限性，并提供易于使用的基础设施，供研究人员测试大语言模型的能力。

Aug, 2023

推动大型语言模型走向6G边缘: 愿景、挑战和机遇

大型语言模型的部署面临一些挑战，云部署方式会有长时间响应、高带宽成本和数据隐私问题。文章探讨了在6G边缘部署语言模型的潜力，介绍了多模态语言模型的关键应用，并提出了6G移动边缘计算的架构。此外，讨论了边缘训练和边缘推理的设计方面，提出了一些有效的技术以促进语言模型的高效部署。

Sep, 2023

OpenAgents: 野外语言代理的开放平台

OpenAgents是一个开放平台，用于在日常生活中使用和托管语言代理，包括数据分析、插件和自主网络浏览等功能，旨在为普通用户提供与代理功能的交互，同时为开发人员和研究人员提供无缝的部署体验，为真实世界的语言代理的研究和开发奠定基础。

Oct, 2023

AgentTuning：为LLMs赋予通用的代理能力

AgentTuning是一种简单且通用的方法，可以提高大型语言模型在代理任务方面的能力，同时保持其一般能力。该方法通过使用AgentInstruct与通用领域的开源指令相结合的混合指令调整策略对Llama 2系列进行了指令调整，从而得到AgentLM。评估结果显示，AgentTuning能够提升语言模型的代理能力而不影响其一般能力，AgentLM-70B在未知代理任务上与GPT-3.5-turbo相媲美，展现了广义的代理能力。我们在指定的网址开源了AgentInstruct和AgentLM-7B、13B和70B模型，为代理任务提供了开源和强大的替代方案。

Oct, 2023

小型LLM是弱工具学习者：多LLM代理

我们提出了一个模块化的多语言模型框架，将大型语言模型能力分解为规划器、调用器和摘要生成器，并通过两阶段训练范式有效地训练该框架，该框架在各种工具使用基准测试中表现出超越传统单语言模型方法的效果，凸显了其在工具学习中的功效和优势。

Jan, 2024

CMAT：增强小型语言模型的多智能体协作优化框架

我们提出了一个新的通信代理框架，结合多智能体系统和环境反馈机制，提供了一种可扩展方法来探索合作行为。尽管参数较少，我们的TinyAgent-7B模型表现与GPT-3.5相当，这意味着大规模语言模型在效率和效果上取得了实质性改进。

Apr, 2024

八爪鱼v2：面向超级特工的设备上语言模型

我们的研究提出了一种新方法，通过使用20亿个参数的设备上模型，在准确率和延迟方面超越了GPT-4，并将上下文长度减少了95％。与基于RAG的函数调用机制Llama-7B相比，我们的方法将延迟提高了35倍，降低到适用于实际生产环境中各种边缘设备部署的水平，符合真实应用的性能要求。

Apr, 2024

花岗岩函数调用模型：通过对颗粒任务的多任务学习引入函数调用能力

通过多任务训练方法，使用七个基本任务在多领域数据集上进行全面评估，我们介绍了基于 Apache 2.0 许可的 GRANITE-20B-FUNCTIONCALLING 模型，该模型在 Berkeley Function Calling Leaderboard 上是所有开源模型中表现最好的，且在七个不同的评估数据集上展现了更好的泛化能力。

Jun, 2024

ShortcutsBench：一个基于API的代理的大规模现实世界基准测试

该研究论文介绍了一个名为ShortcutsBench的大规模基准测试，用于评估基于API的代理程序在解决具有不同难度级别、任务类型和真实需求的任务中的性能。通过使用5个主流开源的以及4个闭源的大型语言模型进行实验，发现基于API的代理程序在处理与API选择、参数填充以及系统和用户请求必要信息相关的复杂查询时存在显著的局限性。

Jun, 2024

ToolACE：赢得大型语言模型的函数调用能力

本研究解决了大型语言模型函数调用应用中，难以收集和标注高质量真实数据的问题。提出了一种名为ToolACE的自动化生成工具学习数据的新方法，该方法通过自我进化合成过程生成准确且多样的工具调用数据。研究表明，基于合成数据训练的模型，即便参数量仅为8B，在伯克利函数调用排行榜上也能达到与最新GPT-4模型相媲美的性能，具有重要的应用前景。

Sep, 2024