高效的早退大语言模型推理框架
通过SkipDecode方法在批处理推理和KV缓存优化技术的直接兼容性下,实现大语言模型的速度提升2倍至5倍,同时保持很小的回归,解决了提前终止计算的先前工作中存在的限制。
Jul, 2023
EE-LLM是一个基于大规模训练和推理的早期退出大型语言模型的框架,通过支持训练和推理的大规模3D并行性,EE-LLM在扩展早期退出LLMs方面迈出了关键的一步,通过实现多种算法创新和性能优化,实现了出色的训练效率和推理加速。
Dec, 2023
通过整合一个(几乎不消耗)常量大小的缓存与基于驱逐策略的缓存方法,提出了LESS,以在过去的解码步骤中查询所有标记。它在时间上保留信息的能力可在多种任务中展现出优点,帮助降低性能差距和提高效率。
Feb, 2024
通过确定关注层的重要性,我们提出了SqueezeAttention来精确优化动态分配关键值缓存的预算,并结合三种代表性的标记稀疏化算法来压缩每个层的关键值缓存。通过从序列和层两个维度进行优化,SqueezeAttention在各种大型语言模型和基准测试中实现了30%至70%的内存减少和最高2.2倍的吞吐量提升。
Apr, 2024
通过跳过Transformer LLMs中后面的attention子层,可以有效地对大型语言模型进行压缩,提升性能并降低计算成本。在Llama 2 7B上观察到21%的生成速度提升,并出乎意料地改善了在多个常见基准测试中的性能。
Apr, 2024
大规模语言模型的有效推理需要克服模型规模大、注意力操作复杂度高、自回归解码等问题,本文对提高大规模语言模型推理效率的现有技术文献进行了综述,介绍了数据层、模型层和系统层优化的方法,并通过实验进行了定量分析,最后总结了相关知识,并探讨了未来研究方向。
Apr, 2024
通过应用层丢弃和早期退出损失的训练技术,在推理过程中加快大型语言模型的速度,并推出了一种新颖的自我推测编码解决方案,该解决方案减少了内存占用,并在不同训练任务上实现了高达2.16倍的加速。
Apr, 2024
Transformer-based LLMs often face challenges in serving long-text generation due to the enormous memory footprint of the KV cache, but InfiniGen presents a novel KV cache management framework that improves the performance of offloading-based systems by up to 3.00x compared to prior methods while maintaining better model accuracy.
Jun, 2024
本文针对大型预训练语言模型推理中的高计算需求问题,提出了一种新颖的早期退出技术,旨在加速推理过程。通过在现有的变换器层上集成自我监督训练的早期退出“头”,可以实现基于信心指标的条件性终止,从而在保证准确性的同时减少计算时间,极大提升了大型语言模型在资源受限环境下的实际应用潜力。
Jul, 2024