Jun, 2023

大模型推断中的最优缓存和模型复用

TL;DR本文旨在研究减少大规模语言模型在推理阶段资源消耗和延迟方面的两种方法:使用缓存来存储之前的查询,学习一个模型多路复用器来选择一个模型集合来进行查询处理,并提供了一种优化算法来同时减少离线和在线表格设置中的推理成本。其中使用 GDSF 或 LEC 的缓存算法,再结合模型多复用器,可以在离线和在线设置下均取得最优水平。