高效基于奖励引导的大型语言模型集成的专家路由

Nov, 2023

高效基于奖励引导的大型语言模型集成的专家路由

Routing to the Expert: Efficient Reward-guided Ensemble of Large Language Models

Keming Lu, Hongyi Yuan, Runji Lin, Junyang Lin, Zheng Yuan...

TL;DR利用 Zooter 方法，我们可以通过挖掘隐含的专业知识和使用奖励模型炼取奖励，实现分配每个查询到相应专业领域的大型语言模型的精确分布，以提高性能并降低计算开销。

Abstract

The complementary potential of large language models (LLM) assumes off-the-shelf LLMs have heterogeneous expertise in a wide range of domains and tasks so that an ensemble of LLMs can achieve consistently better performance. Existing →

large language models ensemble methods latent expertise reward models computation efficiency

发现论文，激发创造

专家路由器：通过提示分类协调高效的语言模型推理

通过引入专家路由器，我们设计了一个可以高效地编排多个专家模型的系统，以增强大规模部署和提供大语言模型的能力，并在高负载场景下实现更高的吞吐率。

Apr, 2024

RouteLLM：利用偏好数据学习路由 LLMs

我们提出了几种高效路由器模型，它们在推理过程中动态选择更强大或更弱的大型语言模型，以实现成本和响应质量的平衡。通过人类偏好数据和数据增强技术，我们开发了一个训练框架来提高性能。在广泛认可的基准测试上的评估结果表明，我们的方法显著降低了成本，在某些情况下超过了 2 倍，同时不影响响应质量。有趣的是，我们的路由器模型还展示了显著的迁移学习能力，在测试时即使更改了强大和弱模型也能保持其性能。这突显了这些路由器为部署大型语言模型提供了成本效益和高性能的解决方案的潜力。

Jun, 2024

Leeroo Orchestrator：通过模型集成提升 LLMs 性能

我们提出了一种架构，利用多个经过训练的 LLMs 的集体知识创建了一个新的最先进模型。核心是一个基于 LLM 的编排器，能够选择最佳的底层 LLM 专家进行任务执行。通过自我对弈的灵感，我们创建了一个查询生成、编排和评估的循环，以生成编排器的训练数据。通过在 MMLU 基准测试上评估，采用了在 Hugging Face 上提供的 7B、13B 和 34B 参数的模型。结果表明，我们的 Leeroo 编排器实现了与 Mixtral 模型相媲美的性能，但只有三分之二的成本。此外，提高允许的成本可以超过 Mixtral 的准确率 5% 以上，达到 75.9% 的准确率水平。将 GPT4 集成到底层模型池中进一步提高了性能。Leeroo 编排器以一半的成本几乎与 GPT4 的性能相当，甚至在降低 25% 成本的情况下超过了 GPT4 的结果。这些发现说明了我们的架构在优化多个 LLMs 之间的协同作用，从而实现卓越性能成果方面的潜力。

Jan, 2024

大型语言模型可用于零样本推荐系统排序

此研究旨在探究大型语言模型在推荐系统中的排名能力，通过采用提示模板设计和引入特定策略，研究发现大型语言模型在候选物品的零 - shot 排名上有着很好的表现，但是若考虑历史互动的顺序、位移等因素，不同的提示和启发方法能够对大型语言模型的表现产生影响。

May, 2023

OrchestraLLM: 较高效的对话状态跟踪语言模型编排

通过创建示例池来代表每种语言模型较可靠回答的上下文类型，并利用经过微调的句子嵌入使上下文相似性接近对话状态相似性，本研究提出了一种新颖的 SLM/LLM 路由框架，旨在提高计算效率并增强任务性能，在对话状态跟踪任务中，相较于仅依赖 LLMs，所提出的路由框架显著提高性能，同时减少计算成本超过 50%。

Nov, 2023

大型语言模型是强零 - shot 召回器

该论文提出了一种简单的方法，使用大规模语言模型作为信息检索的检索器，从而在零 - shot 场景下提高检索效率。该方法通过在检索词和其他相关域内候选之间进行组合，来辅助语言模型生成更精确的答案，使得检索更加透明，从而实现竞争力更强的检索结果。

Apr, 2023

基于基准数据集的大型语言模型路由

通过重新利用基准数据集来学习 “路由器” 模型，我们解决了在一系列模型中为新任务选择最佳的大型语言模型的挑战，并展示了学习模型路由器在不同基准数据集上的效用和局限性，从而在所有任务中持续提高性能。

Sep, 2023

DMoERM：混合专家模型的有效奖励建模方法

通过在奖励模型中引入 Mixture-of-Experts (MoE) 思想，我们提出了一种新的 Double-Layer MoE RM (DMoERM) 模型，该模型在任务分类和能力维度上的精细调优方面表现出卓越的性能，并超越了先进的生成方法。

Mar, 2024

开源大型语言模型是用于文档排序的强零射击查询似然模型

本研究针对最近的大型语言模型探究了原本的零样本排名效果，发现这些仅基于非结构化文本数据进行预训练且没有经过监督指导微调的模型具备强大的零样本排名能力。此外，我们还提出了一个新颖的最先进排名系统，将基于大型语言模型的查询似然模型与混合式零样本检索器相结合，无论是在零样本还是少样本场景下都表现出卓越的效果。我们在 this https URL 上公开了我们的代码库。

Oct, 2023

用于参数高效微调的直觉感知的一级专家的混合模型

多任务场景下，大型语言模型（LLMs）面临着适应性挑战，而《混合专家模型》（MoE）以其稀疏架构有效地解耦任务而成为一种有希望的解决方案。本研究设计了一种模仿人类大脑的新框架《Intuition-MoR1E》，利用实例的内在语义聚类处理多任务情境，为优化特征分配提供了隐含指导。此外，引入了先进的《Rank-1 专家公式》来管理一系列直觉，在多任务 LLM 微调中表现出增强的参数效率和效果。广泛的实验证明，《Intuition-MoR1E》在 14 个公共数据集上相对于其他最先进方法具备更高的效率和 2.15％的整体准确度提升。

Apr, 2024