基于不确定性的两层选择对大型语言模型的优化调用
我们提出了几种高效路由器模型,它们在推理过程中动态选择更强大或更弱的大型语言模型,以实现成本和响应质量的平衡。通过人类偏好数据和数据增强技术,我们开发了一个训练框架来提高性能。在广泛认可的基准测试上的评估结果表明,我们的方法显著降低了成本,在某些情况下超过了 2 倍,同时不影响响应质量。有趣的是,我们的路由器模型还展示了显著的迁移学习能力,在测试时即使更改了强大和弱模型也能保持其性能。这突显了这些路由器为部署大型语言模型提供了成本效益和高性能的解决方案的潜力。
Jun, 2024
本研究提出一种混合推理方法,结合大型语言模型和小型模型的优势,通过路由器根据预测的查询难度和期望的质量水平将查询分配给相应的模型,以在成本节约和保持质量之间进行动态调整,实验结果表明能够减少高质量模型的调用次数达到 40%,且不影响响应质量。
Apr, 2024
我们提出了一个针对大型语言模型的成本效益查询分配问题的框架,名为 OptLLM,通过使用多标签分类模型进行性能预测,生成一系列优化解决方案,旨在满足用户的预算限制和性能偏好,包括最大化准确性和最小化成本。OptLLM 在各种类型的任务上进行了广泛的实验,包括文本分类、问答、情感分析、推理和日志解析,实验证明 OptLLM 在降低成本 2.40% 至 49.18% 的同时实现与最佳大型语言模型相同的准确性,相比其他多目标优化算法,OptLLM 在相同成本下提高 2.94% 至 69.05% 的准确性或节省 8.79% 至 95.87% 的成本并保持最高可达准确性。
May, 2024
本论文提出了一种新的方法,利用在线模型选择算法在序列决策中高效地整合 LLM 代理,统计上显著优于传统决策算法和普通 LLM 代理,计算上避免了 LLM 梯度更新的高昂代价,并且在整个决策过程中只需要少量 LLM 调用。
Jun, 2024
大规模部署生成式 AI 工具常依赖于昂贵的 API 调用以满足用户查询。为了节省这些调用的频率,可以使用一个较小的语言模型 - 学生 - 它会持续训练以适应 LLM 的响应。这个学生逐渐增强独立处理用户请求的能力,这个过程我们称之为神经缓存。神经缓存的关键因素是决定哪些请求应由学生单独处理,哪些请求应重定向到 LLM 以辅助学生学习的策略。在这项研究中,我们关注分类任务,并将一系列经典的基于主动学习的选择标准作为策略进行考虑。我们的实验证明,边界采样和委员会查询在任务和预算方面都带来持续的好处。
Oct, 2023
通过对 FLAN-T5 模型在一系列自然语言基准测试中进行实验,我们表明,通过学习后续的推迟规则来结合较小模型的嵌入和较大模型的中间层,可以在整体成本与质量的权衡中实现额外的提升。
Apr, 2024
通过构建 LLM 级联模型来实现节约成本,特别是在推理任务中的使用,通过应用弱一些但更便宜的 LLM 来解决简单问题,只有复杂问题才需要更强大且更昂贵的 LLM,实现这种决策的关键是通过检查较弱 LLM 的 “答案一致性” 来判断问题的难度,并提出了几种答案采样和一致性检查的方法,其中有一个利用了两种思考表示(Chain-of-Thought 和 Program-of-Thought)的混合方法,在六个推理基准数据集上的实验证明,我们的 LLM 级联模型可以达到与单独使用更强大的 LLM 相当的性能,但仅需 40% 的成本。
Oct, 2023
通过创建示例池来代表每种语言模型较可靠回答的上下文类型,并利用经过微调的句子嵌入使上下文相似性接近对话状态相似性,本研究提出了一种新颖的 SLM/LLM 路由框架,旨在提高计算效率并增强任务性能,在对话状态跟踪任务中,相较于仅依赖 LLMs,所提出的路由框架显著提高性能,同时减少计算成本超过 50%。
Nov, 2023
通过重新利用基准数据集来学习 “路由器” 模型,我们解决了在一系列模型中为新任务选择最佳的大型语言模型的挑战,并展示了学习模型路由器在不同基准数据集上的效用和局限性,从而在所有任务中持续提高性能。
Sep, 2023