HEAT: Transformer 压缩的硬件高效自动张量分解

Nov, 2022

HEAT: Transformer 压缩的硬件高效自动张量分解

HEAT: Hardware-Efficient Automatic Tensor Decomposition for Transformer Compression

Jiaqi Gu, Ben Keller, Jean Kossaifi, Anima Anandkumar, Brucek Khailany...

TL;DR本文提出了 HEAT 硬件感知张量分解框架，通过硬件感知的协同优化，实现了对参数冗余的降维和的自动调节，能够达到更好的能效比和精度。

Abstract

transformers have attained superior performance in natural language processing and computer vision. Their self-attention and feedforward layers are overparameterized, limiting inference speed and energy efficiency

transformers tensor decomposition heat hardware-aware co-optimization energy efficiency

发现论文，激发创造

神经网络模型简化的张量分解：一篇综述

该研究论文综述了六种张量分解方法及其在神经网络中的应用，说明使用这些方法可以明显地减少模型的大小，运行时间和能耗，在边缘设备上实现神经网络时效果显著。

Apr, 2023

探索预训练语言模型的极端参数压缩

探索利用张量分解实现更大的压缩比率来压缩 BERT 模型的研究，取得了可接受的性能损失并显著提高了推理效率，最高压缩至原模型的 1/48，且在 GLUE 基准测试中取得了与原模型相当或略优的表现，该方法相对于蒸馏等现有的压缩方法独立有效。

May, 2022

使用张量分解加速训练

本文提出一种使用张量分解减少模型训练时间的方法，通过在原始架构下训练模型一小段时间后对其进行分解，在没有准确度损失或仅有 1.5％的准确度降低的同时训练速度提高了最多 2 倍，而且在 CPU 和 GPU 平台上均可使用。

Sep, 2019

自然语言处理的部分张量化变压器

本研究利用张量列分解技术对 Transformer 视觉语言神经网络（BERT 和 ViT）进行压缩，从嵌入层压缩和神经网络的部分张量化两方面进行，提高了现有模型的准确性，无需后训练调整。

Oct, 2023

深度神经网络压缩的量化可知因式分解

使用张量分解和量化相结合的方法，通过交替方向乘数法来压缩神经网络的权重，实现在保持预测质量的同时减少参数和计算量，并展示出与现有后训练量化方法相比的竞争性结果和高灵活性的优势。

Aug, 2023

自然语言理解的量化感知和张量压缩 Transformer 训练

该论文提出了一种量化感知张量压缩训练方法，通过将 Transformer 模型的嵌入层和线性层压缩成小的低秩张量核，进一步获得低精度的模型表示进行端到端和蒸馏 - based 训练，并应用层与层的蒸馏方法将预训练的 Transformer 模型转换为量化和张量压缩的学生模型以提高收敛速度，并在两个自然语言理解任务中表现出高达 63 倍的压缩比、几乎无损的精度损失和显著的推断和训练加速。

Jun, 2023

TQCompressor：通过排列改进神经网络中的张量分解方法

我们介绍了一种新的神经网络模型压缩方法 TQCompressor，并使用改进的张量分解技术解决预训练语言模型在 NLP 任务中计算和存储需求方面的挑战。我们通过置换增强 Kronecker 分解，成功降低了模型表示能力的损失。我们将该方法应用于 GPT-2$_{small}$，得到了 TQCompressedGPT-2 模型。与 GPT-2$_{small}$ 的 124 百万参数相比，TQCompressedGPT-2 模型仅有 81 百万参数。我们公开提供了 TQCompressedGPT-2 模型。我们通过多步知识蒸馏的训练策略进一步提升了 TQCompressedGPT-2 的性能，仅使用 3.1％的 OpenWebText 语料库。在比较评估中，TQCompressedGPT-2 优于 DistilGPT-2 和 KnGPT-2，标志着在资源受限环境中高效有效地部署模型的进展。

Jan, 2024

使用 GPU Tensor Cores 的可扩展张量学习 CP 分解

我们提出了 Exascale-Tensor，这是一种压缩基于张量分解的框架，用于支持超大规模张量分解，并通过实验证明了其可扩展性和有效性。

Nov, 2023

通过张量分解和运行时重新定量化加速大型语言模型

基于算法和硬件协同设计的解决方案 Tender，能够以低精度有效部署 LLM 推理，通过分析 LLMs 中的异常值，提出了一种分解的量化技术，其分解矩阵的尺度因子相隔为二的幂，该方案避免了显式的重新量化，并且在现有加速器中具有更高的准确性和推理性能，同时降低了干扰。

Jun, 2024

Mixed-TD：具有层特定张量分解的高效神经网络加速器

本文提出了一种基于混合张量分解方法 (Mixed-TD) 将卷积神经网络 (CNN) 映射到 FPGA 上的框架，该方法采用了层特定的奇异值分解 (SVD) 和标准分解 (CPD)，每个 DSP 可以实现与最先进的 CNN 的 1.73x 至 10.29x 的吞吐量。

Jun, 2023