Oct, 2023

迈向端到端基于生成型大语言模型的4位推理

TL;DR大多数大型生成模型的推理计算可以通过将权重和激活值均转换为4位来加速计算,同时保持良好的准确性;我们通过名为QUIK的混合量化策略实现这一目标,该策略将大多数权重和激活值压缩为4位,将一些异常值保留在较高精度;关键是,我们的方案专注于计算效率,提供高效的逐层GPU内核,相对于FP16执行,端到端的吞吐量可提高最多3.1倍。