ICLRApr, 2024

混合 LLM:成本高效且质量感知的查询路由

TL;DR本研究提出一种混合推理方法,结合大型语言模型和小型模型的优势,通过路由器根据预测的查询难度和期望的质量水平将查询分配给相应的模型,以在成本节约和保持质量之间进行动态调整,实验结果表明能够减少高质量模型的调用次数达到 40%,且不影响响应质量。