OptLLM: 大型语言模型的最佳查询分配

May, 2024

OptLLM: 大型语言模型的最佳查询分配

OptLLM: Optimal Assignment of Queries to Large Language Models

Yueyue Liu, Hongyu Zhang, Yuantian Miao, Van-Hoang Le, Zhiqiang Li

TL;DR我们提出了一个针对大型语言模型的成本效益查询分配问题的框架，名为 OptLLM，通过使用多标签分类模型进行性能预测，生成一系列优化解决方案，旨在满足用户的预算限制和性能偏好，包括最大化准确性和最小化成本。OptLLM 在各种类型的任务上进行了广泛的实验，包括文本分类、问答、情感分析、推理和日志解析，实验证明 OptLLM 在降低成本 2.40% 至 49.18% 的同时实现与最佳大型语言模型相同的准确性，相比其他多目标优化算法，OptLLM 在相同成本下提高 2.94% 至 69.05% 的准确性或节省 8.79% 至 95.87% 的成本并保持最高可达准确性。

Abstract

large language models (LLMs) have garnered considerable attention owing to their remarkable capabilities, leading to an increasing number of companies offering LLMs as services. Different LLMs achieve different performance at different costs. A challenge for users lies in choosing the

large language models cost-effective query allocation optllm performance preferences multi-objective optimization algorithms

发现论文，激发创造

面向优化的大型语言模型

评估 LLM 在各种任务和数据大小上的优化能力，并引入了三个不同的指标来全面评估任务性能。通过应用这些指标，我们观察到 LLM 在处理小规模样本时表现出很强的优化能力，但其性能受到数据大小和值等因素的显著影响，强调了对 LLM 的优化任务领域进行进一步研究的重要性。

Oct, 2023

RouteLLM：利用偏好数据学习路由 LLMs

我们提出了几种高效路由器模型，它们在推理过程中动态选择更强大或更弱的大型语言模型，以实现成本和响应质量的平衡。通过人类偏好数据和数据增强技术，我们开发了一个训练框架来提高性能。在广泛认可的基准测试上的评估结果表明，我们的方法显著降低了成本，在某些情况下超过了 2 倍，同时不影响响应质量。有趣的是，我们的路由器模型还展示了显著的迁移学习能力，在测试时即使更改了强大和弱模型也能保持其性能。这突显了这些路由器为部署大型语言模型提供了成本效益和高性能的解决方案的潜力。

Jun, 2024

供应链优化的大型语言模型

通过 Large Language Models（LLMs）的最新进展，研究如何将这一颠覆性技术应用于供应链自动化，并解决人类理解和信任之间的间隙。设计了一个名为 ame {} 的框架，通过输入纯文本查询并输出有关底层优化结果的见解。同时，我们开发了一个通用的评估基准，用于评估 LLM 在其他情景中的准确性。

Jul, 2023

混合 LLM：成本高效且质量感知的查询路由

本研究提出一种混合推理方法，结合大型语言模型和小型模型的优势，通过路由器根据预测的查询难度和期望的质量水平将查询分配给相应的模型，以在成本节约和保持质量之间进行动态调整，实验结果表明能够减少高质量模型的调用次数达到 40%，且不影响响应质量。

Apr, 2024

优化 LLM 使用成本的探索

本研究提出了一种通过预测 LLMs 的输出质量并优化选择 LLMs 的模型和算法，以降低使用成本，并在质量和延迟意识的情况下实现成本和质量的折衷。研究表明，我们的方法在降低成本 40%-90% 的同时，提高了质量 4%-7%。

Jan, 2024

大型语言模型的数量化知识检索

大型语言模型可用于定量信息检索，以帮助数据分析任务，如贝叶斯模型的先验分布以及缺失数据的插补。我们提出了一个提示工程框架，将大型语言模型视为科学文献的潜在空间界面，并与其他已建立的方法进行比较。同时讨论了使用大型语言模型作为 “专家” 的影响和挑战。

Feb, 2024

LLMs4OL：用于本体学习的大型语言模型

我们提出了 LLMs4OL 方法，利用大型语言模型（LLMs）进行本体学习（OL）。通过全面评估使用零训练样例提示方法，我们发现 LLMs 可以有效地应用其语言模式捕捉能力于 OL，该能力包括从自然语言文本中自动提取和结构化知识。评估涵盖了对三个主要的 OL 任务进行九种不同的 LLM 模型家族的评估，包括术语类型化，分类系统发现以及非分类关系的提取，并包含了 WordNet 中的词汇语义知识，GeoNames 中的地理知识以及 UMLS 中的医学知识等多种类型的本体知识。

Jul, 2023

NLPBench：评估大型语言模型在解决 NLP 问题上的能力

通过独特的基准数据集 NLPBench，评估了大型语言模型在自然语言处理中的问题解决能力，并发现高级提示策略的有效性不稳定，对 LLMs 性能有时造成损害，尤其是较小的模型 LLAMA-2（13 亿参数）中表现更明显；同时发现大型语言模型在科学问题解决能力方面存在特定的不足，逻辑分解和推理的薄弱性明显影响结果。

Sep, 2023

LLM 强化策略多模态查询优化器（版本 1）

本文研究了大型语言模型（LLM）在查询优化方面的能力，并使用 LLM 设计了 LaPuda，一种新颖的基于 LLM 和策略的多模态查询优化器，通过几个抽象策略指导 LLM 进行优化，从而节省了大量时间和人力资源。此外，为了避免 LLM 产生错误的优化，我们借鉴了梯度下降的思想，提出了一种引导成本下降（GCD）算法来执行优化，从而保持优化在正确的方向上。通过评估，我们的方法在大多数情况下都优于基准方法，例如，我们的方法生成的优化计划的执行速度比基准方法快 1~3 倍。

Mar, 2024

基于大型语言模型的进化优化器：精英主义推理

该研究论文探讨了大型语言模型在零样本优化方面的能力，介绍了一种基于语言模型的进化优化方法（LEO），并通过数值示例验证此假设的有效性。同时，论文还提出使用大型语言模型时需要小心处理其想象性和产生幻觉的特点，并给出了获取可靠答案的实用指南以及讨论了方法局限和潜在的研究方向。

Mar, 2024