Apr, 2024

朝着帕累托最优吞吐量的小语言模型服务

TL;DR通过实验和分析,本文旨在对小型语言模型的推理性能和能量效率进行基准测试,并得出结论说明模型复制可以有效提高服务小型语言模型时的资源利用率。