Jul, 2024

关于在CPU上对大型语言模型进行推断性能优化的研究

TL;DR该研究介绍了一种在CPU上加速大型语言模型的易于部署推理性能优化解决方案,并针对常用模型进行了定制优化。