大型语言模型的分布式推理
De-DSI 是一种新颖的框架,通过将大型语言模型(LLMs)与信息检索真正的分布式化相结合,特别是在分布式环境中采用可微分搜索索引(DSI)的概念,以有效地将新颖的用户查询与文档标识符连接起来,在仅使用查询 - 文档标识符对上进行操作。该框架通过引入 DSI 模型的集合来提高可扩展性,其中数据集被分割为较小的片段进行单独的模型训练。通过使用波束搜索来识别顶级文档标识符并应用 softmax 函数进行评分归一化,从而选择具有最高得分的文档进行检索。该分布式实现表明检索成功率与集中式方法相当,同时具有将计算复杂性分布到网络中的额外好处。该设置还允许通过磁力链接检索多媒体项目,消除了平台或中介的需求。
Apr, 2024
部署异步大型语言模型(LLMs)的代价高昂,为了减少成本,本文介绍了一种新的多目标场景的 Draft 模型部署方法,并提出了一种更高效的排序 Speculative Decoding 机制,该方法在多目标环境下优于基线模型。
Jul, 2024
Speculative Streaming 是一种单一模型的推测解码方法,通过将起草融入目标模型,将微调目标从下一个标记预测改为未来 n-gram 预测的目标,以在总结、结构查询和语义表示等多个任务中提高 1.8-3.1 倍的解码速度,而不损失生成质量。此外,Speculative Streaming 在参数效率方面表现出色,与 Medusa-style 架构相比,使用的额外参数较少,适用于资源受限的设备。
Feb, 2024
我们提出了一种新颖的推理方案,自我推测解码,用于加速大型语言模型(LLMs),无需辅助模型。该方法通过两个阶段的过程来实现:草稿和验证。草稿阶段以稍低质量但更快的速度生成草稿标记,通过在草稿期间选择性跳过某些中间层来实现。然后,验证阶段使用原始 LLM 在一次前向传递中验证那些草稿输出标记。该过程确保最终输出与未经修改的 LLM 产生的输出完全相同,从而保持输出质量。所提出的方法不需要额外的神经网络训练和额外的内存占用,是一种即插即用和经济高效的推理加速解决方案。与 LLaMA-2 及其微调模型的基准测试表明,加速比最高可达 1.73 倍。
Sep, 2023
通过研究和提出 Diffusion-based language models 的新方法,我们成功将 SSD-LM 模型从 0.4B 扩展至 13B 参数,同时提高了其训练和推断的效率,并能够根据指令进行微调,与自回归 LM 相比,Diffusion-based language models 在双向上下文方面的合作更加有效,从而提高了模型响应的质量和相关性。
May, 2023
大语言模型在自然语言处理中产生了革命性的作用,并且扩展了它在不同商业应用中的适用性。然而,这些模型在多语言环境中的部署受到推理时间的限制。为了缓解这一挑战,本文探讨了使用推测解码的助理模型的训练方法,其中助理模型用于草拟未来的令牌,并通过目标语言模型进行验证。我们表明,通过有针对性的预训练和微调策略优化的专门针对语言的草拟模型,在推理时间上显著减少了时间,相较于以前的方法。我们在推理时间、领域外优化以及 GPT-4o 评估等方面验证了这些模型。
Jun, 2024
FastServe 是一种分布式推理服务系统,利用预 emption 技术在输出单词级别上最小化了 Large language models 的 inference 时间,并采用 GPU 内存管理机制,与现有解决方案相比可将平均和 tail JCT 分别提高了 5.1 倍和 6.4 倍。
May, 2023
通过引入具有语义自适应能力的令牌,提出一种用于大型语言模型(LLM)的加速方案(SDSAT)。该方案通过细调模型和使用训练方法,以及使用新的生成策略,能够在不影响模型准确性的情况下,提高模型生成草稿令牌的准确性,并且在 CodeLlama-13B 和 7B 模型上实验,分别获得了超过 3.5X 和 3.0X 的加速效果。
Mar, 2024
递归推测解码是一种基于树的方法,利用抽样生成多样性的草稿令牌序列来加速大型语言模型,从而在固定的草稿序列长度和计算预算下取得了优越性能。
Feb, 2024
利用大型语言模型(LLM)的最新进展,我们提出了一种新颖的算法 —— 分阶段投机性解码,以加速小批量、设备上的 LLM 推断。我们通过改进投机性解码的前期工作解决了小批量推断的低算术密度问题。首先,我们将投机性批量重新组织为一棵树,这降低了生成成本并增加了每批预期的标记数。其次,我们添加了第二阶段的投机性解码。综合而言,我们在完美地保留输出质量的同时,将单批解码延迟降低了 3.16 倍,使用了一个 762M 参数的 GPT-2-L 模型。
Aug, 2023