Jun, 2024

低延迟大型语言模型的 LiveMind:具有同时推理的特性

TL;DR本文介绍了一种用于大型语言模型(LLMs)的新型低延迟推断框架,使 LLMs 能够使用不完整的提示进行推断,并通过重新分配计算过程到提示输入阶段,实现了大幅度的延迟降低,从而显著提高用户与 LLMs 的交互体验。该框架灵活地管理模型对流式提示的可见性,允许它从不完整的提示中进行推断或等待附加提示。与使用完整提示的传统推断方法相比,我们的方法在 MMLU-Pro 数据集上表现出平均响应延迟减少 59%,同时保持相当的准确性。此外,我们的框架促进了不同模型之间的协同推断和输出。通过使用 LLM 进行推断和使用小型语言模型(SLM)进行输出,与 SLM 基线相比,我们在 MMLU-Pro 数据集上实现了平均响应延迟减少 68%,准确性提高了 5.5%。对于超过 20 个句子的长提示,响应延迟可以降低高达 93%。