Jan, 2024

Inferflow:一个高效和高度可配置的大语言模型推理引擎

TL;DRInferflow是一个有效且高度可配置的推理引擎,适用于大规模语言模型(LLMs)。通过修改相关配置文件中的几行代码,用户可以简单地为大多数常见的Transformer模型提供服务,而无需编写源代码。相比其他推理引擎,Inferflow具有一些关键特性:首先,通过实现原子建模块和技术的模块化框架,Inferflow可以普遍适用于新模型;其次,引入了3.5位量化作为3位量化和4位量化之间的折中;第三,Inferflow引入了混合模型分区以进行多GPU推理,以更好地平衡推理速度和吞吐量,超过了现有的按层分区和按张量分区策略。