Feb, 2025
协同推理:基于令牌级路由的高效大语言模型解码
CITER: Collaborative Inference for Efficient Large Language Model
Decoding with Token-Level Routing
TL;DR本研究针对大型语言模型在推理过程中面临的高计算成本问题,提出了一种新的协同推理框架CITER,通过令牌级路由策略实现小型和大型语言模型的高效协作。实验表明,CITER在保持高质量生成的同时显著降低了推理成本,为实时和资源受限应用提供了有希望的解决方案。