在关系型工作负载中优化 LLM 查询

Mar, 2024

在关系型工作负载中优化 LLM 查询

Optimizing LLM Queries in Relational Workloads

Shu Liu, Asim Biswal, Audrey Cheng, Xiangxi Mo, Shiyi Cao...

TL;DR本文探讨了如何优化在关系查询中调用大型语言模型的 LLM 推断，包括重排行以最大化 LLM 推断引擎内的键值（KV）缓存重用，重排列列以进一步增加缓存重用，并去重复冗余的推断请求。我们在 Apache Spark 中实现了这些优化，在真实数据集上的多样化 LLM 查询基准测试中，最终端到端延迟提高了 4.4 倍。据我们所知，这是第一个明确解决在 SQL 查询中优化 LLM 调用问题的研究。

Abstract

analytical database providers (e.g., Redshift, Databricks, BigQuery) have rapidly added support for invoking large language models (LLMs) through native user-defined functions (UDFs) to help users perform natural

analytical database providers large language models llm inference relational queries optimizing llm invocations

发现论文，激发创造

LLMs 能否替代 SQL？比较 LLMs 与传统关系型数据库的资源利用

评估了大型语言模型（LLMs）在解释和执行自然语言查询与传统 SQL 时，在资源利用和准确性方面的表现，结果显示使用 LLMs 进行数据库查询会导致显著的能源开销，不建议用 LLMs 替代关系数据库。

Apr, 2024

使用 SQL 查询大型语言模型

使用大语言模型和 SQL 查询从自然语言文本中提取数据和查询，是信息检索和处理的新方向并带来了新的挑战和机遇。

Apr, 2023

基于英特尔 GPU 的高效 LLM 推理解决方案

提议了一种高效的大型语言模型推理解决方案，通过简化模型结构、融合数据移动和逐元素操作、使用段落 KV 缓存策略等方法降低系统延迟并提高吞吐量，在 Intel GPU 上相对于标准 HuggingFace 实现，能够实现高达 7 倍的令牌延迟降低和 27 倍的吞吐量提升。

Dec, 2023

LLM 增强数据管理

LLMDB 是一种通过应用机器学习和大型语言模型优化数据管理问题的范例，具有高泛化能力和推理能力，可避免幻觉问题，并通过引入特定领域的知识、矢量数据库和 LLM 代理来提高准确性，其中三个真实场景包括查询重写、数据库诊断和数据分析。

Feb, 2024

OptLLM: 大型语言模型的最佳查询分配

我们提出了一个针对大型语言模型的成本效益查询分配问题的框架，名为 OptLLM，通过使用多标签分类模型进行性能预测，生成一系列优化解决方案，旨在满足用户的预算限制和性能偏好，包括最大化准确性和最小化成本。OptLLM 在各种类型的任务上进行了广泛的实验，包括文本分类、问答、情感分析、推理和日志解析，实验证明 OptLLM 在降低成本 2.40% 至 49.18% 的同时实现与最佳大型语言模型相同的准确性，相比其他多目标优化算法，OptLLM 在相同成本下提高 2.94% 至 69.05% 的准确性或节省 8.79% 至 95.87% 的成本并保持最高可达准确性。

May, 2024

大语言模型的高效推论综述

大规模语言模型的有效推理需要克服模型规模大、注意力操作复杂度高、自回归解码等问题，本文对提高大规模语言模型推理效率的现有技术文献进行了综述，介绍了数据层、模型层和系统层优化的方法，并通过实验进行了定量分析，最后总结了相关知识，并探讨了未来研究方向。

Apr, 2024

在 CPU 上高效 LLM 推断

本论文提出了一种有效的方法，可以更高效地部署大型语言模型，通过自动 INT4 纯权重量化流和设计具有高度优化内核的特殊 LLM 运行时，在 CPU 上加速 LLM 推理，展示了该方法对包括 Llama2、Llama、GPT-NeoX 等流行 LLM 的普适性，并显示了在 CPU 上的极高推理效率。

Nov, 2023

基于大型语言模型的文本转 SQL：基准评估

本文对大型语言模型（LLMs）在 Text-to-SQL 任务中的应用进行了研究，提出了一种新的集成解决方案 DAIL-SQL，并通过实验证明了其在 Spider 排行榜上取得了 86.6% 的执行准确率。研究重点在于提示工程中的令牌效率和任务特定的监督微调。通过探索开源 LLMs 在 Text-to-SQL 中的潜力，以及任务特定的监督微调的优势和劣势，希望能够对 LLMs 在 Text-to-SQL 领域提供更深入的了解，并激发进一步的研究和广泛应用。

Aug, 2023

大型语言模型的数量化知识检索

大型语言模型可用于定量信息检索，以帮助数据分析任务，如贝叶斯模型的先验分布以及缺失数据的插补。我们提出了一个提示工程框架，将大型语言模型视为科学文献的潜在空间界面，并与其他已建立的方法进行比较。同时讨论了使用大型语言模型作为 “专家” 的影响和挑战。

Feb, 2024

Blar-SQL: 更快、更强、更小的 NL2SQL

研究表明，通过任务分解可以大大提高大型语言模型在数据库理解和查询生成方面的能力，从而通过 SQL 查询回答人类问题。我们提出了一个新的框架，通过将架构划分为块来在有限的上下文中容纳更多信息，该方法的结果与 GPT-4 相当，但体积更小、速度更快并且成本更低。

Jan, 2024