通过应用层丢弃和早期退出损失的训练技术,在推理过程中加快大型语言模型的速度,并推出了一种新颖的自我推测编码解决方案,该解决方案减少了内存占用,并在不同训练任务上实现了高达 2.16 倍的加速。
Apr, 2024
通过跳过 Transformer LLMs 中后面的 attention 子层,可以有效地对大型语言模型进行压缩,提升性能并降低计算成本。在 Llama 2 7B 上观察到 21% 的生成速度提升,并出乎意料地改善了在多个常见基准测试中的性能。
通过提出一种名为 MuE 的新颖的早期退出策略,可以在编解码器中动态地跳过图像和文本多模态的不同层,从而提高推理效率,该方法可将预期推理时间缩短 50%和 40%,同时保持高达 99%和 96%的性能。
Nov, 2022
我们的研究工作通过指令调整大型语言模型的推理过程,提升其效率同时保持生成质量,这是推广应用这类模型的重要一步。
Oct, 2023
通过 SkipDecode 方法在批处理推理和 KV 缓存优化技术的直接兼容性下,实现大语言模型的速度提升 2 倍至 5 倍,同时保持很小的回归,解决了提前终止计算的先前工作中存在的限制。
Jul, 2023
我们提出了一种新颖的推理方案,自我推测解码,用于加速大型语言模型(LLMs),无需辅助模型。该方法通过两个阶段的过程来实现:草稿和验证。草稿阶段以稍低质量但更快的速度生成草稿标记,通过在草稿期间选择性跳过某些中间层来实现。然后,验证阶段使用原始 LLM 在一次前向传递中验证那些草稿输出标记。该过程确保最终输出与未经修改的 LLM 产生的输出完全相同,从而保持输出质量。所提出的方法不需要额外的神经网络训练和额外的内存占用,是一种即插即用和经济高效的推理加速解决方案。与 LLaMA-2 及其微调模型的基准测试表明,加速比最高可达 1.73 倍。
Sep, 2023
利用大型语言模型(LLM)的最新进展,我们提出了一种新颖的算法 —— 分阶段投机性解码,以加速小批量、设备上的 LLM 推断。我们通过改进投机性解码的前期工作解决了小批量推断的低算术密度问题。首先,我们将投机性批量重新组织为一棵树,这降低了生成成本并增加了每批预期的标记数。其次,我们添加了第二阶段的投机性解码。综合而言,我们在完美地保留输出质量的同时,将单批解码延迟降低了 3.16 倍,使用了一个 762M 参数的 GPT-2-L 模型。
Aug, 2023
通过使用预测值,基于 Transformer 架构的生成式大型语言模型 (SPEED) 能够并行地执行当前令牌以及多个未来令牌,从而提高推理效率,减少延迟,并在保持模型准确性的同时实现支持参数共享的更深层次解码器的训练。
在对大规模过参数化的语言模型进行预训练时,我们提出了一种简单的路由机制,用于为不同的标记分配不同数量的计算量,从而显著改善在上下文少样本学习中的性能。这种方法在 24 个自然语言处理任务上进行了全面评估,证明相对于竞争性基准,该方法能够显著提高 1-shot 性能,而仅需额外的轻微成本进行推理。
Nov, 2023
大规模语言模型的有效推理需要克服模型规模大、注意力操作复杂度高、自回归解码等问题,本文对提高大规模语言模型推理效率的现有技术文献进行了综述,介绍了数据层、模型层和系统层优化的方法,并通过实验进行了定量分析,最后总结了相关知识,并探讨了未来研究方向。