Feb, 2025

协同推理:基于令牌级路由的高效大语言模型解码

TL;DR本研究针对大型语言模型在推理过程中面临的高计算成本问题,提出了一种新的协同推理框架CITER,通过令牌级路由策略实现小型和大型语言模型的高效协作。实验表明,CITER在保持高质量生成的同时显著降低了推理成本,为实时和资源受限应用提供了有希望的解决方案。