基于不确定性的两层选择对大型语言模型的优化调用

May, 2024

基于不确定性的两层选择对大型语言模型的优化调用

Optimising Calls to Large Language Models with Uncertainty-Based Two-Tier Selection

Guillem Ramírez, Alexandra Birch, Ivan Titov

TL;DR通过使用仅基于小型 LLM 生成的不确定性作为决策准则，我们提出了一种简化的解决方案，该解决方案在 25 个实验设置中优于现有方法，实现了成本和性能的最佳平衡。

Abstract

Researchers and practitioners operating on a limited budget face the cost-performance trade-off dilemma. The challenging decision often centers on whether to use a large →

limited budget cost-performance trade-off llm cascading strategy routing strategy

发现论文，激发创造

RouteLLM：利用偏好数据学习路由 LLMs

我们提出了几种高效路由器模型，它们在推理过程中动态选择更强大或更弱的大型语言模型，以实现成本和响应质量的平衡。通过人类偏好数据和数据增强技术，我们开发了一个训练框架来提高性能。在广泛认可的基准测试上的评估结果表明，我们的方法显著降低了成本，在某些情况下超过了 2 倍，同时不影响响应质量。有趣的是，我们的路由器模型还展示了显著的迁移学习能力，在测试时即使更改了强大和弱模型也能保持其性能。这突显了这些路由器为部署大型语言模型提供了成本效益和高性能的解决方案的潜力。

Jun, 2024

混合 LLM：成本高效且质量感知的查询路由

本研究提出一种混合推理方法，结合大型语言模型和小型模型的优势，通过路由器根据预测的查询难度和期望的质量水平将查询分配给相应的模型，以在成本节约和保持质量之间进行动态调整，实验结果表明能够减少高质量模型的调用次数达到 40%，且不影响响应质量。

Apr, 2024

OptLLM: 大型语言模型的最佳查询分配

我们提出了一个针对大型语言模型的成本效益查询分配问题的框架，名为 OptLLM，通过使用多标签分类模型进行性能预测，生成一系列优化解决方案，旨在满足用户的预算限制和性能偏好，包括最大化准确性和最小化成本。OptLLM 在各种类型的任务上进行了广泛的实验，包括文本分类、问答、情感分析、推理和日志解析，实验证明 OptLLM 在降低成本 2.40% 至 49.18% 的同时实现与最佳大型语言模型相同的准确性，相比其他多目标优化算法，OptLLM 在相同成本下提高 2.94% 至 69.05% 的准确性或节省 8.79% 至 95.87% 的成本并保持最高可达准确性。

May, 2024

大规模语言模型的高效顺序决策

本论文提出了一种新的方法，利用在线模型选择算法在序列决策中高效地整合 LLM 代理，统计上显著优于传统决策算法和普通 LLM 代理，计算上避免了 LLM 梯度更新的高昂代价，并且在整个决策过程中只需要少量 LLM 调用。

Jun, 2024

缓存与提炼：优化大型语言模型的 API 调用

大规模部署生成式 AI 工具常依赖于昂贵的 API 调用以满足用户查询。为了节省这些调用的频率，可以使用一个较小的语言模型 - 学生 - 它会持续训练以适应 LLM 的响应。这个学生逐渐增强独立处理用户请求的能力，这个过程我们称之为神经缓存。神经缓存的关键因素是决定哪些请求应由学生单独处理，哪些请求应重定向到 LLM 以辅助学生学习的策略。在这项研究中，我们关注分类任务，并将一系列经典的基于主动学习的选择标准作为策略进行考虑。我们的实验证明，边界采样和委员会查询在任务和预算方面都带来持续的好处。

Oct, 2023

语言模型级联：标记级别的不确定性和更多

通过对 FLAN-T5 模型在一系列自然语言基准测试中进行实验，我们表明，通过学习后续的推迟规则来结合较小模型的嵌入和较大模型的中间层，可以在整体成本与质量的权衡中实现额外的提升。

Apr, 2024

大型语言模型级联与思维混合表达用于高效推理

通过构建 LLM 级联模型来实现节约成本，特别是在推理任务中的使用，通过应用弱一些但更便宜的 LLM 来解决简单问题，只有复杂问题才需要更强大且更昂贵的 LLM，实现这种决策的关键是通过检查较弱 LLM 的 “答案一致性” 来判断问题的难度，并提出了几种答案采样和一致性检查的方法，其中有一个利用了两种思考表示（Chain-of-Thought 和 Program-of-Thought）的混合方法，在六个推理基准数据集上的实验证明，我们的 LLM 级联模型可以达到与单独使用更强大的 LLM 相当的性能，但仅需 40% 的成本。

Oct, 2023

审慎行事：大型语言模型下的不确定性测量的探索性研究

从不确定性的角度进行的风险评估研究表明不确定性估计方法可用于揭示大型语言模型的预测风险，并可能发现由该模型生成的有错误的程序。

Jul, 2023

OrchestraLLM: 较高效的对话状态跟踪语言模型编排

通过创建示例池来代表每种语言模型较可靠回答的上下文类型，并利用经过微调的句子嵌入使上下文相似性接近对话状态相似性，本研究提出了一种新颖的 SLM/LLM 路由框架，旨在提高计算效率并增强任务性能，在对话状态跟踪任务中，相较于仅依赖 LLMs，所提出的路由框架显著提高性能，同时减少计算成本超过 50%。

Nov, 2023

基于基准数据集的大型语言模型路由

通过重新利用基准数据集来学习 “路由器” 模型，我们解决了在一系列模型中为新任务选择最佳的大型语言模型的挑战，并展示了学习模型路由器在不同基准数据集上的效用和局限性，从而在所有任务中持续提高性能。

Sep, 2023