发挥多重智慧的力量：从 LLM 路由中所学到的经验

ACLMay, 2024

发挥多重智慧的力量：从 LLM 路由中所学到的经验

Harnessing the Power of Multiple Minds: Lessons Learned from LLM Routing

KV Aditya Srivatsa, Kaushal Kumar Maurya, Ekaterina Kochmar

TL;DR我们探讨了是否可以将每个输入查询直接路由到最合适的 LLM，我们的广泛实验表明这样的路由有前景但在所有情景下都不可行，因此应该研究更加稳健的方法来填补这一空白。

Abstract

With the rapid development of llms, it is natural to ask how to harness their capabilities efficiently. In this paper, we explore whether it is feasible to direct each input query to a single most suitable LLM. T

llms routing reasoning tasks feasible robust approaches

发现论文，激发创造

RouteLLM：利用偏好数据学习路由 LLMs

我们提出了几种高效路由器模型，它们在推理过程中动态选择更强大或更弱的大型语言模型，以实现成本和响应质量的平衡。通过人类偏好数据和数据增强技术，我们开发了一个训练框架来提高性能。在广泛认可的基准测试上的评估结果表明，我们的方法显著降低了成本，在某些情况下超过了 2 倍，同时不影响响应质量。有趣的是，我们的路由器模型还展示了显著的迁移学习能力，在测试时即使更改了强大和弱模型也能保持其性能。这突显了这些路由器为部署大型语言模型提供了成本效益和高性能的解决方案的潜力。

Jun, 2024

多模态集成如何提升 LLM 在优化中的性能：基于车辆路径问题的案例研究

通过使用多模式大语言模型处理文本和视觉提示，我们提出一种增强优化性能的方法，在深入理解处理的优化问题方面提供了更综合的视角，类似于人类的认知过程。通过对一个众所周知的组合优化问题进行广泛的实证研究，我们评估了该方法的有效性，并与仅依赖于文本提示的基于大语言模型的优化算法进行了比较，展示了多模式方法的显著优势。

Mar, 2024

LLMs 是否能够推理计算？

利用分布式网络的 “归纳学习” 方法可以提高小型语言模型的推理能力，从而弥补其依赖统计模式容易产生错误答案的局限性，并可能使其逼近高参数模型在逻辑应用上所取得的水平，从而弥合人类和大型语言模型在各个领域之间的逻辑差距。

Feb, 2024

混合 LLM：成本高效且质量感知的查询路由

本研究提出一种混合推理方法，结合大型语言模型和小型模型的优势，通过路由器根据预测的查询难度和期望的质量水平将查询分配给相应的模型，以在成本节约和保持质量之间进行动态调整，实验结果表明能够减少高质量模型的调用次数达到 40%，且不影响响应质量。

Apr, 2024

LLMs 中的分布式推理：多跳推理中的并行推理过程

大型语言模型具有出色的能力来执行需要思考过程的任务，本研究引入了一种新颖且可解释的分析方法，探讨了大型语言模型内部的多跳推理过程，揭示了模型通过简单线性变换来建模组合推理问题的预测过程，并且发现网络的中间层生成高度可解释的嵌入，代表了多跳问题的一组潜在中间答案，这些观察结果揭示了平行推理路径的存在，即使模型缺少解决任务所需的知识，这些结果有助于揭示大型语言模型解决推理任务的策略，并提供了人工智能所能产生的思维过程类型的见解，最后还讨论了认知建模的这些结果的含义。

Jun, 2024

构建和重用 LoRAs 库以实现模块化 LLMs

通过研究不同任务的共享参数模型训练器的可重复使用性，我们调研了如何根据多任务数据构建最佳适配器库，并设计了通过库中的路由进行零样本和监督任务泛化的技术。我们对构建适配器库的现有方法进行了基准测试，并引入了基于模型的聚类方法 MBC，通过间接优化跨多任务数据集的传输来分组任务。为了重复使用该库，我们提出了一种新颖的零样本路由机制 Arrow，它能够动态选择最相关的适配器用于新的输入，无需重新训练。我们在多种大型语言模型（LLMs），如 Phi-2 和 Mistral 上进行了实验，针对大量保留任务验证了基于 MBC 的适配器和 Arrow 路由在新任务的泛化性上的卓越表现。我们迈出了创建模块化、适应性强、能够与传统联合训练不相上下甚至超越的 LLMs 的步伐。

May, 2024

MindMerger: 非英语语种中高效提升 LLM 推理能力

LLMs 与多语言模型中的外部语言理解能力的融合方法 MindMerger 可提高多语言推理性能。在多个语言推理数据集上的实验证明，MindMerger 相较于其他方法具有更好的性能，尤其对于资源稀缺的语言。在 MGSM 数据集上，不更新 LLMs 的参数，平均准确率分别提升了 6.7% 和 8.0%，涵盖所有语言和资源稀缺的语言。

May, 2024

OptLLM: 大型语言模型的最佳查询分配

我们提出了一个针对大型语言模型的成本效益查询分配问题的框架，名为 OptLLM，通过使用多标签分类模型进行性能预测，生成一系列优化解决方案，旨在满足用户的预算限制和性能偏好，包括最大化准确性和最小化成本。OptLLM 在各种类型的任务上进行了广泛的实验，包括文本分类、问答、情感分析、推理和日志解析，实验证明 OptLLM 在降低成本 2.40% 至 49.18% 的同时实现与最佳大型语言模型相同的准确性，相比其他多目标优化算法，OptLLM 在相同成本下提高 2.94% 至 69.05% 的准确性或节省 8.79% 至 95.87% 的成本并保持最高可达准确性。

May, 2024

小型 LLM 是弱工具学习者：多 LLM 代理

我们提出了一个模块化的多语言模型框架，将大型语言模型能力分解为规划器、调用器和摘要生成器，并通过两阶段训练范式有效地训练该框架，该框架在各种工具使用基准测试中表现出超越传统单语言模型方法的效果，凸显了其在工具学习中的功效和优势。

Jan, 2024

面向关系推理的 LLMs：我们离目标有多远？

通过对归纳逻辑编程基准测试的深入评估，本研究表明与模型规模较小的神经程序归纳系统相比，最新的大型语言模型在推理能力方面表现较差，无论是使用自然语言提示还是真值矩阵提示，它们在性能和泛化方面都表现较低。

Jan, 2024