HEAT: Transformer 压缩的硬件高效自动张量分解
该研究论文综述了六种张量分解方法及其在神经网络中的应用,说明使用这些方法可以明显地减少模型的大小,运行时间和能耗,在边缘设备上实现神经网络时效果显著。
Apr, 2023
探索利用张量分解实现更大的压缩比率来压缩 BERT 模型的研究,取得了可接受的性能损失并显著提高了推理效率,最高压缩至原模型的 1/48,且在 GLUE 基准测试中取得了与原模型相当或略优的表现,该方法相对于蒸馏等现有的压缩方法独立有效。
May, 2022
本文提出一种使用张量分解减少模型训练时间的方法,通过在原始架构下训练模型一小段时间后对其进行分解,在没有准确度损失或仅有 1.5%的准确度降低的同时训练速度提高了最多 2 倍,而且在 CPU 和 GPU 平台上均可使用。
Sep, 2019
本研究利用张量列分解技术对 Transformer 视觉语言神经网络(BERT 和 ViT)进行压缩,从嵌入层压缩和神经网络的部分张量化两方面进行,提高了现有模型的准确性,无需后训练调整。
Oct, 2023
使用张量分解和量化相结合的方法,通过交替方向乘数法来压缩神经网络的权重,实现在保持预测质量的同时减少参数和计算量,并展示出与现有后训练量化方法相比的竞争性结果和高灵活性的优势。
Aug, 2023
该论文提出了一种量化感知张量压缩训练方法,通过将 Transformer 模型的嵌入层和线性层压缩成小的低秩张量核,进一步获得低精度的模型表示进行端到端和蒸馏 - based 训练,并应用层与层的蒸馏方法将预训练的 Transformer 模型转换为量化和张量压缩的学生模型以提高收敛速度,并在两个自然语言理解任务中表现出高达 63 倍的压缩比、几乎无损的精度损失和显著的推断和训练加速。
Jun, 2023
我们介绍了一种新的神经网络模型压缩方法 TQCompressor,并使用改进的张量分解技术解决预训练语言模型在 NLP 任务中计算和存储需求方面的挑战。我们通过置换增强 Kronecker 分解,成功降低了模型表示能力的损失。我们将该方法应用于 GPT-2$_{small}$,得到了 TQCompressedGPT-2 模型。与 GPT-2$_{small}$ 的 124 百万参数相比,TQCompressedGPT-2 模型仅有 81 百万参数。我们公开提供了 TQCompressedGPT-2 模型。我们通过多步知识蒸馏的训练策略进一步提升了 TQCompressedGPT-2 的性能,仅使用 3.1%的 OpenWebText 语料库。在比较评估中,TQCompressedGPT-2 优于 DistilGPT-2 和 KnGPT-2,标志着在资源受限环境中高效有效地部署模型的进展。
Jan, 2024
我们提出了 Exascale-Tensor,这是一种压缩基于张量分解的框架,用于支持超大规模张量分解,并通过实验证明了其可扩展性和有效性。
Nov, 2023
基于算法和硬件协同设计的解决方案 Tender,能够以低精度有效部署 LLM 推理,通过分析 LLMs 中的异常值,提出了一种分解的量化技术,其分解矩阵的尺度因子相隔为二的幂,该方案避免了显式的重新量化,并且在现有加速器中具有更高的准确性和推理性能,同时降低了干扰。
Jun, 2024
本文提出了一种基于混合张量分解方法 (Mixed-TD) 将卷积神经网络 (CNN) 映射到 FPGA 上的框架,该方法采用了层特定的奇异值分解 (SVD) 和标准分解 (CPD),每个 DSP 可以实现与最先进的 CNN 的 1.73x 至 10.29x 的吞吐量。
Jun, 2023