Jun, 2024

VELO: 基于向量数据库的云边协同 LLM QoS 优化框架

TL;DR本研究提出了一种名为 VELO 框架的向量数据库辅助云边协作的大型语言模型(LLM)的 QoS 优化方法,通过利用向量数据库缓存来降低相似请求的响应时间和成本,并通过多智能体强化学习算法解决 QoS 优化问题。实验结果表明,VELO 框架显著提高了利用 LLM 的边缘用户的用户满意度,同时减少延迟和资源消耗。