Oct, 2023

回到过去:推理阶段中的高效低密度语言模型

TL;DR使用上下文稀疏性预测算法和异步硬件感知实现,提出了 DejaVu 系统,可在不影响模型质量的情况下将 OPT-175B 的推理延迟降低了 2 倍,并且相比于最先进的 FasterTransformer 实现和广泛使用的 Hugging Face 实现,可降低推理延迟超过 6 倍。