通过自监督早期退出加速大型语言模型推理
本研究分析了动态提前退出的工作机制,并发现其在高速比下面临性能瓶颈。为了解决这个问题,提出了一个新的框架CascadeBERT,可以在重要性和正确性方面提供综合的表示。 经过实验证明,与现有的动态提前退出方法相比,CascadeBERT在六个分类任务上的性能提升达到了15%,可实现4倍加速。
Dec, 2020
使用Confident Adaptive Language Modeling(CALM)动态分配不同量的计算资源,早期退出解码以减少计算,从而在维持高性能的同时最多可提速三倍,理论分析和实验表明其在减少计算方面的有效性。
Jul, 2022
我们提出了一种新颖的推理方案,自我推测解码,用于加速大型语言模型(LLMs),无需辅助模型。该方法通过两个阶段的过程来实现:草稿和验证。草稿阶段以稍低质量但更快的速度生成草稿标记,通过在草稿期间选择性跳过某些中间层来实现。然后,验证阶段使用原始LLM在一次前向传递中验证那些草稿输出标记。该过程确保最终输出与未经修改的LLM产生的输出完全相同,从而保持输出质量。所提出的方法不需要额外的神经网络训练和额外的内存占用,是一种即插即用和经济高效的推理加速解决方案。与LLaMA-2及其微调模型的基准测试表明,加速比最高可达1.73倍。
Sep, 2023
EE-LLM是一个基于大规模训练和推理的早期退出大型语言模型的框架,通过支持训练和推理的大规模3D并行性,EE-LLM在扩展早期退出LLMs方面迈出了关键的一步,通过实现多种算法创新和性能优化,实现了出色的训练效率和推理加速。
Dec, 2023
大规模语言模型的有效推理需要克服模型规模大、注意力操作复杂度高、自回归解码等问题,本文对提高大规模语言模型推理效率的现有技术文献进行了综述,介绍了数据层、模型层和系统层优化的方法,并通过实验进行了定量分析,最后总结了相关知识,并探讨了未来研究方向。
Apr, 2024
通过应用层丢弃和早期退出损失的训练技术,在推理过程中加快大型语言模型的速度,并推出了一种新颖的自我推测编码解决方案,该解决方案减少了内存占用,并在不同训练任务上实现了高达2.16倍的加速。
Apr, 2024
通过构建检索数据库,框架RAEE以预测的近似分布为指导,利用类似数据的退出信息加速语言模型推理,取得了显著的效果,并在8个分类任务上达到了最先进的零-shot性能。
May, 2024
本研究针对早退模型的推理效率问题,提出了一个高效的推理框架。关键创新在于提出了逐迭代的批量推理和KV缓存管理方案,显著提高了推理速度。实验结果表明,与原始的全层vLLM相比,该框架实现了最高1.25倍的速度提升。
Jul, 2024
本研究解决了大型语言模型(LLM)在性能优化和资源消耗方面的挑战。通过系统文献综述,提出了多种方法来加快LLM的训练和推理,同时保持准确性。研究表明,可以在不损失性能的情况下,显著降低计算和内存成本,推动LLM的广泛应用。
Sep, 2024