利用大型语言模型进行API交互:分类和合成数据生成的框架
本文介绍了API-Bank,它是第一个为工具增强的LLMs定制的基准测试,旨在全面评估LLMs规划逐步API调用、检索相关API和正确执行API调用以满足人类需求的能力,实验结果表明,GPT-3.5在使用工具方面比GPT3有更好的性能,虽然GPT-4在规划性能方面更强,但仍有继续改进的空间,此外,详细的错误分析和案例研究证明了工具增强LLMs的可行性以及未来需要解决的主要挑战。
Apr, 2023
本文介绍了Gorilla模型,该模型通过使用基于LLaMA的finetuned技术,在写API调用方面超越了最先进的GPT-4模型。结合文档检索器,Gorilla展示了对测试时间文档更改的强大适应能力,减少了LMM直接提示时出现的幻觉问题,证明了LLM使用工具的潜力。
May, 2023
通过引入ToolLLM,一个包括数据构建、模型训练和评估的通用工具使用框架,我们展示了它在增强自然语言模型的规划和推理能力方面的显著影响。我们通过用ChatGPT创建一个工具使用指导数据集ToolBench,并使用深度优先搜索决策树(DFSDT)扩展搜索空间,有效地获取有效的解决方案路径。通过对LLaMA进行微调后得到ToolLLaMA,我们的评估器ToolEval显示ToolLLaMA在执行复杂指令和推广到未见过的API方面表现出卓越的能力,并与ChatGPT有着相当的性能。为了使流程更加实用,我们设计了一个神经API检索器以为每个指令推荐适当的API,省去了手动选择API的繁琐步骤。
Jul, 2023
通过使用特定任务的工具来增强大型语言模型的能力,CRAFT框架通过创建和检索工具集,为LLMs提供了灵活性,并在视觉语言、表格处理和数学推理任务中实现了显著的性能改进。
Sep, 2023
该研究调查了代码生成在“特定领域”应用中的有效方法,包括使用大型语言模型(LLMs)进行数据分割和更新,以及通过提示调整刺激LLMs更深入思考。我们以一款真实的公司产品为例,提供了用户手册、API文档和其他数据。本文所讨论的思想有助于将这些数据分割并转换为语义向量,以更好地反映它们的真实定位。随后,将用户需求转换为向量以检索最相关的内容,在简单到中等复杂的任务中通过各种提示技术实现约70%的准确率。本文首次从这个角度增强了特定领域的代码生成效果。此外,我们还通过使用llama2进行基于微调的有限脚本生成实验,测试其在专业领域代码生成中的有效性。这是一个具有挑战性和有希望的领域,一旦实现,它不仅将在多个行业中取得突破,而且还能够使LLMs有效地理解和学习任何新知识。
Nov, 2023
本文介绍了API-BLEND数据集,用于训练和基准测试工具增强的大型语言模型,数据集模拟了涉及API任务的实际情境,如API/工具检测、插槽填充和检测到的API排序。
Feb, 2024
利用大型语言模型在软件 API 调用中的提高性能和准确性,通过编译和微调 API 结构和语法,使用条件屏蔽技术确保输出符合预期格式并减少错误率,提出了评估 LLM 在 API 互动中有效性的新基准,并证明了 fine-tuned 模型 Octopus 对于软件 API 调用具有比 GPT-4 更好的性能,推动自动化软件开发和 API 集成的发展,实现了 LLM 能力与实际软件工程应用需求的实质性进展。
Apr, 2024
基于大规模语言模型的代码生成领域的综述,介绍了对LLMs在代码生成领域的最新进展、数据处理、性能评估、实际应用,对学术与实践之间的差距进行了分析,提出了关键挑战和机遇,并提供了一个资源网站以记录和传播该领域的最新进展。
Jun, 2024
本研究针对现有评估主要集中在通用代码生成的不足,提出了一种系统的自动化框架AutoAPIEval,以评估大语言模型在API导向代码生成方面的能力。研究发现,不同模型在各任务中的表现差异显著,并指出API流行度和模型自信度等关键因素对代码质量的影响,具有重要的实际应用价值。
Sep, 2024
本研究解决了当前评估大型语言模型(LLMs)在面向API的代码生成能力方面的空白,提出了一种名为AutoAPIEval的轻量级自动化评估框架。研究发现,不同的LLMs在执行特定任务时表现差异显著,进而揭示了影响代码质量的重要因素,如API的受欢迎程度和模型的置信度。
Sep, 2024