Mar, 2024

在关系型工作负载中优化 LLM 查询

TL;DR本文探讨了如何优化在关系查询中调用大型语言模型的 LLM 推断,包括重排行以最大化 LLM 推断引擎内的键值(KV)缓存重用,重排列列以进一步增加缓存重用,并去重复冗余的推断请求。我们在 Apache Spark 中实现了这些优化,在真实数据集上的多样化 LLM 查询基准测试中,最终端到端延迟提高了 4.4 倍。据我们所知,这是第一个明确解决在 SQL 查询中优化 LLM 调用问题的研究。