混合 LLM：成本高效且质量感知的查询路由

ICLRApr, 2024

混合 LLM：成本高效且质量感知的查询路由

Hybrid LLM: Cost-Efficient and Quality-Aware Query Routing

Dujian Ding, Ankur Mallick, Chi Wang, Robert Sim, Subhabrata Mukherjee...

TL;DR本研究提出一种混合推理方法，结合大型语言模型和小型模型的优势，通过路由器根据预测的查询难度和期望的质量水平将查询分配给相应的模型，以在成本节约和保持质量之间进行动态调整，实验结果表明能够减少高质量模型的调用次数达到 40%，且不影响响应质量。

Abstract

large language models (LLMs) excel in most NLP tasks but also require expensive cloud servers for deployment due to their size, while smaller models that can be deployed on lower cost (e.g., edge) devices, tend to lag behind in terms of →

large language models inference approach hybrid response quality cost reduction

发现论文，激发创造

RouteLLM：利用偏好数据学习路由 LLMs

我们提出了几种高效路由器模型，它们在推理过程中动态选择更强大或更弱的大型语言模型，以实现成本和响应质量的平衡。通过人类偏好数据和数据增强技术，我们开发了一个训练框架来提高性能。在广泛认可的基准测试上的评估结果表明，我们的方法显著降低了成本，在某些情况下超过了 2 倍，同时不影响响应质量。有趣的是，我们的路由器模型还展示了显著的迁移学习能力，在测试时即使更改了强大和弱模型也能保持其性能。这突显了这些路由器为部署大型语言模型提供了成本效益和高性能的解决方案的潜力。

Jun, 2024

专家路由器：通过提示分类协调高效的语言模型推理

通过引入专家路由器，我们设计了一个可以高效地编排多个专家模型的系统，以增强大规模部署和提供大语言模型的能力，并在高负载场景下实现更高的吞吐率。

Apr, 2024

OptLLM: 大型语言模型的最佳查询分配

我们提出了一个针对大型语言模型的成本效益查询分配问题的框架，名为 OptLLM，通过使用多标签分类模型进行性能预测，生成一系列优化解决方案，旨在满足用户的预算限制和性能偏好，包括最大化准确性和最小化成本。OptLLM 在各种类型的任务上进行了广泛的实验，包括文本分类、问答、情感分析、推理和日志解析，实验证明 OptLLM 在降低成本 2.40% 至 49.18% 的同时实现与最佳大型语言模型相同的准确性，相比其他多目标优化算法，OptLLM 在相同成本下提高 2.94% 至 69.05% 的准确性或节省 8.79% 至 95.87% 的成本并保持最高可达准确性。

May, 2024

基于需求定制的 LMLs 服务

通过引入层级分布式的大型语言模型（LLM）架构，提高 LLM 在异构计算平台上的可访问性和可部署性，实现按需访问和定制化服务，并在用户与应用需求之间取得最佳权衡，推动人工智能技术的进步。

Jan, 2024

混合异构集群能降低 LLM 推断工作负载的能耗

减少大型语言模型在数据中心的能耗是一个关键挑战。本文介绍了一种混合型数据中心模型，使用基于成本的调度框架来动态分配不同能效和计算能力的硬件加速器上的大型语言模型任务，以降低能量消耗。我们的工作负载感知策略根据查询中输入和输出标记的数量决定任务是在能效处理器上还是在高性能 GPU 上处理，我们的分析发现，与不考虑工作负载的基准相比，这种混合策略可以将 CPU+GPU 能耗降低 7.5%。

Apr, 2024

OrchestraLLM: 较高效的对话状态跟踪语言模型编排

通过创建示例池来代表每种语言模型较可靠回答的上下文类型，并利用经过微调的句子嵌入使上下文相似性接近对话状态相似性，本研究提出了一种新颖的 SLM/LLM 路由框架，旨在提高计算效率并增强任务性能，在对话状态跟踪任务中，相较于仅依赖 LLMs，所提出的路由框架显著提高性能，同时减少计算成本超过 50%。

Nov, 2023

基于基准数据集的大型语言模型路由

通过重新利用基准数据集来学习 “路由器” 模型，我们解决了在一系列模型中为新任务选择最佳的大型语言模型的挑战，并展示了学习模型路由器在不同基准数据集上的效用和局限性，从而在所有任务中持续提高性能。

Sep, 2023

基于不确定性的两层选择对大型语言模型的优化调用

通过使用仅基于小型 LLM 生成的不确定性作为决策准则，我们提出了一种简化的解决方案，该解决方案在 25 个实验设置中优于现有方法，实现了成本和性能的最佳平衡。

May, 2024

大型语言模型的经济性权衡：一个案例研究

使用大型语言模型（LLMs）辅助人类客服代理商自动生成现成或有改动的响应已成为许多公司降低雇用客服代理商成本的方式。本文通过使用成本框架评估一个 NLP 模型的实用性，将其应用于特定品牌的案例研究并比较三种 LLM 的专业化策略，发现模型的响应可用性可以补偿推理成本的巨大差异，并将研究结果推广到更广泛的企业领域。

Jun, 2023

处理低资源语言任务的成本性能优化：使用商业 LLMs

降低大型语言模型在低资源语言的处理成本，同时确保预测和生成性能不受损失，通过考虑代码混合、翻译和音译等方式来减少 LLM 处理的标记数量，并通过广泛研究 15 种印度语言的 IndicXTREME 数据集来证明最佳交互策略可以将成本降低 90%，并且与原始低资源语言的交互相比性能更好或可比。

Mar, 2024