LLM-dCache: 使用 GPT 驱动的本地化数据缓存改善增强工具的 LLM

Jun, 2024

LLM-dCache: 使用 GPT 驱动的本地化数据缓存改善增强工具的 LLM

LLM-dCache: Improving Tool-Augmented LLMs with GPT-Driven Localized Data Caching

Simranjit Singh, Michael Fore, Andreas Karatzas, Chaehong Lee, Yanan Jian...

TL;DR本研究介绍了 LLM-dCache，它将缓存操作视为可调用的 API 函数，通过与现有的函数调用机制无缝集成，使得大型语言模型能够在管理数据访问时提高效率。在大规模平台上的测试表明，我们的方法在不同的 LLM 和提示技术上将 Copilot 的时间平均提升了 1.24 倍。

Abstract

As large language models (LLMs) broaden their capabilities to manage thousands of API calls, they are confronted with complex data operations across vast datasets with significant overhead to the underlying syste

large language models llm-dcache data operations cache decisions copilot times

发现论文，激发创造

ToolLLM: 促进大型语言模型掌握 16000 + 现实世界 API

通过引入 ToolLLM，一个包括数据构建、模型训练和评估的通用工具使用框架，我们展示了它在增强自然语言模型的规划和推理能力方面的显著影响。我们通过用 ChatGPT 创建一个工具使用指导数据集 ToolBench，并使用深度优先搜索决策树（DFSDT）扩展搜索空间，有效地获取有效的解决方案路径。通过对 LLaMA 进行微调后得到 ToolLLaMA，我们的评估器 ToolEval 显示 ToolLLaMA 在执行复杂指令和推广到未见过的 API 方面表现出卓越的能力，并与 ChatGPT 有着相当的性能。为了使流程更加实用，我们设计了一个神经 API 检索器以为每个指令推荐适当的 API，省去了手动选择 API 的繁琐步骤。

Jul, 2023

GeckOpt：通过基于意图的工具选择提高低水平管理系统效率

通过识别用户提示背后的意图，我们调查了一种基于 GPT 的意图推理方法，以简化大型语言模型（LLMs）的工具选择，从而提高系统的效率。通过在运行时缩小任务执行所需的 API 工具集合，我们将记号消耗减少了多达 24.6％。在一个具有 100 个 GPT-4-Turbo 节点的实际大规模并行 Copilot 平台上的初步结果显示出成本的降低和改善 LLM 系统效率的潜力。

Apr, 2024

大语言模型的隐私感知语义缓存

MeanCache 是一种用于 LLM 的语义缓存，通过识别语义相似的查询来确定缓存是否命中，降低了计算成本，服务提供者负载和环境影响，同时使用联邦学习在各个用户之间进行分布式训练查询相似性模型，不违反隐私。与 GPTCache 相比，MeanCache 在语义缓存命中与未命中的决策中取得了大约 17% 的 F - 得分增加和 20% 的精确度增加，并且在减少存储需求方面有了 83% 的提升和在语义缓存命中与未命中的决策加速方面有了 11% 的提升，仍然超过了 GPTCache。

Mar, 2024

FrugalGPT：如何在降低成本和提高性能的同时使用大型语言模型

该研究分析了使用大型语言模型的成本，并提出了三种降低推理成本的策略，包括提示适应，LLM 近似和 LLM 级联。基于这些策略，我们提出了 FrugalGPT，它可以使用不同的组合来降低成本并提高准确性。

May, 2023

缓存与提炼：优化大型语言模型的 API 调用

大规模部署生成式 AI 工具常依赖于昂贵的 API 调用以满足用户查询。为了节省这些调用的频率，可以使用一个较小的语言模型 - 学生 - 它会持续训练以适应 LLM 的响应。这个学生逐渐增强独立处理用户请求的能力，这个过程我们称之为神经缓存。神经缓存的关键因素是决定哪些请求应由学生单独处理，哪些请求应重定向到 LLM 以辅助学生学习的策略。在这项研究中，我们关注分类任务，并将一系列经典的基于主动学习的选择标准作为策略进行考虑。我们的实验证明，边界采样和委员会查询在任务和预算方面都带来持续的好处。

Oct, 2023

基于 LLM 的数据增强方法提升跨语言表现

本研究探讨了利用大型语言模型进行数据增强在跨语言常识推理数据集中的潜力，通过使用包括 Dolly-v2、StableVicuna、ChatGPT 和 GPT-4 在内的大型语言模型来扩充三个数据集，确定了该方法的有效性，并比较了使用英语生成数据和将英语生成的数据翻译成目标语言。实验结果表明，使用 GPT-4 生成的合成数据进行训练的性能比其他模型优秀，ChatGPT 和 GPT-4 在大多数语言中生成的自然文本效果非常好，但在某些情况下，它们的效益会下降。

May, 2023

物理集成迭代建模的领域专用反应：燃气涡轮气道分析中 LLM 代理的案例研究

本研究探讨了在能源和电力工程领域中使用大型语言模型（LLMs）与可调用工具进行研究，并重点关注燃气轮机的燃气通道分析。我们开发了双代理工具调用过程，以整合专家知识、预定义工具和 LLM 推理。我们评估了包括 LLama3、Qwen1.5 和 GPT 在内的各种 LLMs。较小的模型在工具使用和参数提取方面存在困难，而较大的模型展示了较好的能力。所有模型都面临着复杂、多组分问题的挑战。基于测试结果，我们推测具有近 1000 亿参数的 LLMs 可以通过精调和先进的提示设计满足专业场景需求。持续的发展可能提高其准确性和效果，为更强大的基于人工智能的解决方案铺平道路。

Jun, 2024

使用 Kcache 的高效 LLM 推断

KCache 技术是一种用于提高大型语言模型推理过程中内存瓶颈问题的技术，通过缓存预先计算的 KV 状态，将热门 LLMs 的吞吐量提高 40%，同时保持准确性。

Apr, 2024

DB-GPT 展示：由大型语言模型赋能的下一代数据交互系统

DB-GPT 是一款现成的 Python 库，将大型语言模型（LLMs）与传统数据交互任务相结合，以增强用户体验和可访问性。它支持各种环境部署，并能够处理包括基本的文本到 SQL 转换以及生成式数据分析等复杂任务。此外，DB-GPT 还提供一系列产品功能，以方便用户将其集成到产品环境中。

Apr, 2024

缓存我如果可以：一种在线的成本感知教师 - 学生框架，用于减少对大型语言模型的调用

通过缓存以前的机器学习模型响应并在中小企业端训练一个本地经济型模型，我们提出了一种降低调用大型语言模型次数的框架，使用两个常见的商业任务（意图识别和情感分析）以及两个经济型学生（k-NN 分类器和多层感知器）来展现实验结果表明，除了稍微降低性能外，还可以获得显著的运营费用节约。

Oct, 2023