VELO: 基于向量数据库的云边协同 LLM QoS 优化框架

Jun, 2024

VELO: 基于向量数据库的云边协同 LLM QoS 优化框架

VELO: A Vector Database-Assisted Cloud-Edge Collaborative LLM QoS Optimization Framework

Zhi Yao, Zhiqing Tang, Jiong Lou, Ping Shen, Weijia Jia

TL;DR本研究提出了一种名为 VELO 框架的向量数据库辅助云边协作的大型语言模型（LLM）的 QoS 优化方法，通过利用向量数据库缓存来降低相似请求的响应时间和成本，并通过多智能体强化学习算法解决 QoS 优化问题。实验结果表明，VELO 框架显著提高了利用 LLM 的边缘用户的用户满意度，同时减少延迟和资源消耗。

Abstract

The large language model (LLM) has gained significant popularity and is extensively utilized across various domains. Most LLM deployments occur within cloud data centers, where they encounter substantial response delays and incur high costs, thereby impacting the Quality of Services (Q

large language model vector database caching qos optimization markov decision process multi-agent reinforcement learning

发现论文，激发创造

OptLLM: 大型语言模型的最佳查询分配

我们提出了一个针对大型语言模型的成本效益查询分配问题的框架，名为 OptLLM，通过使用多标签分类模型进行性能预测，生成一系列优化解决方案，旨在满足用户的预算限制和性能偏好，包括最大化准确性和最小化成本。OptLLM 在各种类型的任务上进行了广泛的实验，包括文本分类、问答、情感分析、推理和日志解析，实验证明 OptLLM 在降低成本 2.40% 至 49.18% 的同时实现与最佳大型语言模型相同的准确性，相比其他多目标优化算法，OptLLM 在相同成本下提高 2.94% 至 69.05% 的准确性或节省 8.79% 至 95.87% 的成本并保持最高可达准确性。

May, 2024

在关系型工作负载中优化 LLM 查询

本文探讨了如何优化在关系查询中调用大型语言模型的 LLM 推断，包括重排行以最大化 LLM 推断引擎内的键值（KV）缓存重用，重排列列以进一步增加缓存重用，并去重复冗余的推断请求。我们在 Apache Spark 中实现了这些优化，在真实数据集上的多样化 LLM 查询基准测试中，最终端到端延迟提高了 4.4 倍。据我们所知，这是第一个明确解决在 SQL 查询中优化 LLM 调用问题的研究。

Mar, 2024

LAMBO：大型语言模型增强边缘智能

利用大型语言模型（LLM）和移动边缘计算（MEC），我们提出了一种基于 LLM 的离线框架（LAMBO）来解决传统深度离线架构面临的问题，通过四个组成部分实现了高性能决策制定、预训练和在动态环境变化下微调解码器。模拟结果证实了 LAMBO 框架的优势。

Aug, 2023

混合 LLM：成本高效且质量感知的查询路由

本研究提出一种混合推理方法，结合大型语言模型和小型模型的优势，通过路由器根据预测的查询难度和期望的质量水平将查询分配给相应的模型，以在成本节约和保持质量之间进行动态调整，实验结果表明能够减少高质量模型的调用次数达到 40%，且不影响响应质量。

Apr, 2024

LLM 增强数据管理

LLMDB 是一种通过应用机器学习和大型语言模型优化数据管理问题的范例，具有高泛化能力和推理能力，可避免幻觉问题，并通过引入特定领域的知识、矢量数据库和 LLM 代理来提高准确性，其中三个真实场景包括查询重写、数据库诊断和数据分析。

Feb, 2024

ChatSOS：增强安全工程的矢量数据库生成问答助手

通过开发一个向量数据库，该研究证明外部数据库对大型语言模型具有补充作用，提高了可靠性、准确性和全面性，并改善了回答的适应性和解释能力，展示了大型语言模型在安全工程中处理专业问题的潜力，为更广泛的应用奠定了基础。

May, 2024

LLM 加速、优化和应用的新解决方案

该研究综述了针对大型语言模型（LLMs）的挑战以及提高系统效率的最新进展和研究方向，包括算法级加速技术、LLM 硬件与软件协同设计策略、LLMs 加速器编译方法以及利用 LLMs 辅助电路设计的方法。通过这些工作，旨在为 LLMs 在各种应用中实现更高效、可扩展的部署铺平道路。

Jun, 2024

大型语言模型与向量数据库相遇：一份调查

大语言模型与向量数据库之间的交叉点进行了深入和独特的分析。

Jan, 2024

基于需求定制的 LMLs 服务

通过引入层级分布式的大型语言模型（LLM）架构，提高 LLM 在异构计算平台上的可访问性和可部署性，实现按需访问和定制化服务，并在用户与应用需求之间取得最佳权衡，推动人工智能技术的进步。

Jan, 2024

推动大型语言模型走向 6G 边缘：愿景、挑战和机遇

大型语言模型的部署面临一些挑战，云部署方式会有长时间响应、高带宽成本和数据隐私问题。文章探讨了在 6G 边缘部署语言模型的潜力，介绍了多模态语言模型的关键应用，并提出了 6G 移动边缘计算的架构。此外，讨论了边缘训练和边缘推理的设计方面，提出了一些有效的技术以促进语言模型的高效部署。

Sep, 2023