ShadowLLM: 基于预测的上下文稀疏化大语言模型
使用上下文稀疏性预测算法和异步硬件感知实现,提出了 DejaVu 系统,可在不影响模型质量的情况下将 OPT-175B 的推理延迟降低了 2 倍,并且相比于最先进的 FasterTransformer 实现和广泛使用的 Hugging Face 实现,可降低推理延迟超过 6 倍。
Oct, 2023
通过基于 Hessian 灵敏度感知的混合稀疏剪枝方法,我们提出了一种剪枝 LLMs 的方法,以至少达到 50% 的稀疏度,而不需要任何重新训练,该方法适应性地分配稀疏度,减少了剪枝引起的错误,同时保持了整体稀疏度水平,并且在稀疏度极高时表现出更显著的优势,此外,我们的方法与量化兼容,从而进一步压缩 LLMs。
Oct, 2023
使用稀疏性加速预训练大型语言模型 (LLMs) 的训练过程,通过观察前向迭代中被激活的神经元的稀疏性,排除不活跃的神经元以提高计算速度,这一方法在实践中实现了与标准训练相媲美甚至更好的性能,持续预训练中吞吐量提升了 45%,在监督微调中节省了 38% 的训练时间,提供了一个简单、硬件无关且易于部署的额外 LLM 训练框架。
Jun, 2024
本研究提出了一种基于稀疏性诱导正则化的层选择方法,用于压缩大型预训练语言模型,以提高特定任务的计算效率,并在两个基准数据集上进行了实验验证其有效性。
Apr, 2018
使用 Learn-To-be-Efficient 算法能够实现大型语言模型的效率提升,通过激活较少神经元来获得更好的稀疏性和性能平衡,取得了较好的结果。
Feb, 2024
基于 Contextually Aware Thresholding for Sparsity (CATS) 的新框架用于稀疏化大型语言模型的激活并降低推理成本,在不需要微调的情况下,CATS-based 模型可以在 50% 的激活稀疏程度下实现与基础模型 1-2% 的下游任务性能,并且具有更快的收敛速度和更好的任务性能。
Apr, 2024
利用上下文剪枝技术开发 Mini-GPT 来优化大型语言模型(LLMs),通过对传统 LLMs 的计算架构进行剪枝,保留核心功能同时大幅减小模型大小,此方法在多样且复杂的数据集上展现了高效性和有效性,作为构建领域特定 LLMs 的潜力方法,是未来发展的基石。
Dec, 2023
本文提出了 SampleAttention,一种自适应结构化的稀疏注意力机制,通过捕捉稀疏模式和列条纹模式来减少时间到第一个令牌的延迟,并在大规模语言模型中取得了几乎没有准确性损失的效果。
Jun, 2024
我们在小型语言模型(SLMs)中实现了稀疏激活,并通过新的归因测量指标以达到精确的稀疏激活,实验证明我们的方法可以在只损失 < 5% 的模型准确性的情况下实现 80% 的稀疏化比率,可与大型语言模型(LLMs)中实现的稀疏激活相媲美。
Jun, 2024