基于基准数据集的大型语言模型路由

Sep, 2023

基于基准数据集的大型语言模型路由

Large Language Model Routing with Benchmark Datasets

Tal Shnitzer, Anthony Ou, Mírian Silva, Kate Soule, Yuekai Sun...

TL;DR通过重新利用基准数据集来学习 “路由器” 模型，我们解决了在一系列模型中为新任务选择最佳的大型语言模型的挑战，并展示了学习模型路由器在不同基准数据集上的效用和局限性，从而在所有任务中持续提高性能。

Abstract

There is a rapidly growing number of open-source large language models (LLMs) and benchmark datasets to compare them. While some models dominate these benchmarks, no single model typically achieves the best accur

open-source large language models benchmark datasets llm selection binary classification tasks model routers

发现论文，激发创造

RouteLLM：利用偏好数据学习路由 LLMs

我们提出了几种高效路由器模型，它们在推理过程中动态选择更强大或更弱的大型语言模型，以实现成本和响应质量的平衡。通过人类偏好数据和数据增强技术，我们开发了一个训练框架来提高性能。在广泛认可的基准测试上的评估结果表明，我们的方法显著降低了成本，在某些情况下超过了 2 倍，同时不影响响应质量。有趣的是，我们的路由器模型还展示了显著的迁移学习能力，在测试时即使更改了强大和弱模型也能保持其性能。这突显了这些路由器为部署大型语言模型提供了成本效益和高性能的解决方案的潜力。

Jun, 2024

ROUTERBENCH：多层逻辑系统的基准测试

提供了 ROUTERBENCH 评估框架和数据集，该框架可系统评估 LLM 路由系统的效力并比较各种路由方法的潜力和局限性，进一步推动了 LLM 路由系统的发展和评估标准的确立。

Mar, 2024

从词语到路线：应用大型语言模型于车辆路径规划

LLMs 在车辆路径问题的自然语言任务描述中显示出令人印象深刻的进展，在这项工作中，我们通过构建数据集、评估 LLMs 的性能以及提出自反思的框架，研究了 LLMs 解决车辆路径问题的能力和敏感性。

Mar, 2024

自然语言理解中大型语言模型的快速学习：综述

本文介绍了大型语言模型的概念、挑战和解决方法，着重关注了数据集偏差和简化学习对其抗干扰性的影响，提出了识别和缓解这些影响的方法，并探讨了未来可能的研究方向。

Aug, 2022

一个以用户为中心的评估大型语言模型的基准

我们提出了从用户角度对大型语言模型进行基准测试，旨在更好地反映实际用户需求，并且我们还构建了用户报告场景数据集以及对 10 个语言模型服务在满足用户需求方面的基准测试。

Apr, 2024

专家路由器：通过提示分类协调高效的语言模型推理

通过引入专家路由器，我们设计了一个可以高效地编排多个专家模型的系统，以增强大规模部署和提供大语言模型的能力，并在高负载场景下实现更高的吞吐率。

Apr, 2024

网络大型语言模型：工作流程、进展与挑战

通过回顾现有工作，我们按类别介绍了应用语言模型于网络领域的突出成果，并详细解释它们在工作流程的不同阶段的操作方式。此外，我们深入探讨了遇到的挑战，讨论了潜在解决方案，并勾勒了未来的研究前景。我们希望这份调查能为研究人员和实践者提供洞见，推动该跨学科研究领域的发展。

Apr, 2024

高效大型语言模型：综述

大型语言模型在自然语言理解、语言生成和复杂推理等重要任务中展示出了卓越的能力，并有潜力对我们的社会产生重大影响。然而，这些能力所需的资源相当可观，强调了开发有效的技术来解决其效率挑战的迫切需求。本调研以系统和全面的方式概述了高效大型语言模型的研究成果，从模型中心、数据中心和框架中心的角度，将文献进行了分类整理。我们还创建了一个 GitHub 存储库，在这个存储库中收集了本调研中涉及的论文，并将积极维护并整合新的研究成果。希望本调研能为研究人员和从业者提供有价值的资源，帮助他们系统地了解高效大型语言模型的研究进展，并激励他们为这个重要而激动人心的领域做出贡献。

Dec, 2023

混合 LLM：成本高效且质量感知的查询路由

本研究提出一种混合推理方法，结合大型语言模型和小型模型的优势，通过路由器根据预测的查询难度和期望的质量水平将查询分配给相应的模型，以在成本节约和保持质量之间进行动态调整，实验结果表明能够减少高质量模型的调用次数达到 40%，且不影响响应质量。

Apr, 2024

ML-Bench：大型语言模型基于开源库进行机器学习任务

通过使用开源库完成机器学习任务，本文旨在提出一种新的评估设置，以评估大型语言模型（LLMs）在实际编程中的适用性，并介绍了 ML-Bench 和 ML-Agent 两个工具，用于评估 LLMs 在利用开源函数时的有效性。

Nov, 2023