TQCompressor：通过排列改进神经网络中的张量分解方法

Jan, 2024

TQCompressor：通过排列改进神经网络中的张量分解方法

TQCompressor: improving tensor decomposition methods in neural networks via permutations

V. Abronin, A. Naumov, D. Mazur, D. Bystrov, K. Tsarova...

TL;DR我们介绍了一种新的神经网络模型压缩方法 TQCompressor，并使用改进的张量分解技术解决预训练语言模型在 NLP 任务中计算和存储需求方面的挑战。我们通过置换增强 Kronecker 分解，成功降低了模型表示能力的损失。我们将该方法应用于 GPT-2$_{small}$，得到了 TQCompressedGPT-2 模型。与 GPT-2$_{small}$ 的 124 百万参数相比，TQCompressedGPT-2 模型仅有 81 百万参数。我们公开提供了 TQCompressedGPT-2 模型。我们通过多步知识蒸馏的训练策略进一步提升了 TQCompressedGPT-2 的性能，仅使用 3.1％的 OpenWebText 语料库。在比较评估中，TQCompressedGPT-2 优于 DistilGPT-2 和 KnGPT-2，标志着在资源受限环境中高效有效地部署模型的进展。

Abstract

We introduce tqcompressor, a novel method for neural network model compression with improved tensor decompositions. We explore the challenges posed by the computational and storage demands of →

tqcompressor neural network model compression tensor decompositions pre-trained language models knowledge distillation

发现论文，激发创造

GPT 压缩的 Kronecker 分解

本研究使用 Kronecker 分解压缩 GPT-22 模型的线性映射，并使用该技术训练得到一种新型的神经语言模型 KnGPT2，该模型在经过有效预训练后，可在具有相同参数数量的情况下，优于现有的 DistilGPT2 模型，在语言建模和通用语言理解评估基准任务上均取得了显著的成绩。

Oct, 2021

KroneckerBERT: 通过知识蒸馏学习预训练语言模型的 Kronecker 分解

本文利用 Kronecker 分解技术对预训练语言模型进行压缩，在保证模型高通用性的同时，将模型大小压缩至原大小的 5%，并在多个 NLP 基准测试上实现更好的性能和全新的 out-of-distribution 鲁棒性表现。

Sep, 2021

TensorGPT: 基于张量列车分解的 LLMs 嵌入层高效压缩

本研究提出一种基于张量列分解的方法，将每个令牌嵌入视为可在分布式方式下有效计算的矩阵乘积状态，从而实现对令牌嵌入层的压缩，可达到高达 38.40 倍的压缩比，并在 3.31 倍的压缩因子下甚至比原始 GPT-2 模型效果更好。

Jul, 2023

探索预训练语言模型的极端参数压缩

探索利用张量分解实现更大的压缩比率来压缩 BERT 模型的研究，取得了可接受的性能损失并显著提高了推理效率，最高压缩至原模型的 1/48，且在 GLUE 基准测试中取得了与原模型相当或略优的表现，该方法相对于蒸馏等现有的压缩方法独立有效。

May, 2022

自然语言理解的量化感知和张量压缩 Transformer 训练

该论文提出了一种量化感知张量压缩训练方法，通过将 Transformer 模型的嵌入层和线性层压缩成小的低秩张量核，进一步获得低精度的模型表示进行端到端和蒸馏 - based 训练，并应用层与层的蒸馏方法将预训练的 Transformer 模型转换为量化和张量压缩的学生模型以提高收敛速度，并在两个自然语言理解任务中表现出高达 63 倍的压缩比、几乎无损的精度损失和显著的推断和训练加速。

Jun, 2023

大数据分析和大规模优化问题的张量网络

本文探讨了基本的张量网络模型和相关算法，尤其是使用新的数学和图形表示的张量列车（TT）分解。通过张量化和使用量子化张量列车网络实现数据的超级压缩，对大规模数据优化问题进行了分布式表示，并通过优化迭代和近似张量缩并的方式，应用小型矩阵和张量运算来解决一系列难以用经典数值方法解决的问题，例如广义特征值分解，主成分分析 / 奇异值分解和规范相关分析。

Jul, 2014

紧凑 AI：使用量子启发的张量网络对大型语言模型进行极致压缩

该研究介绍了一种创新的 LLM 压缩方法，使用量子启发的张量网络来压缩模型的相关空间，实现对 LLaMA-2 7B 模型的压缩，使其仅保留原始大小的 30%，并在经过简要分布式重新训练后恢复原始准确率的 90% 以上。

Jan, 2024

文本深度学习模型压缩综述

本文综述了近年来自然语言处理和信息检索领域的深度学习模型在压缩方面的六种方法，并探讨了构建高效、小型模型的重要性以及相关研究成果。

Aug, 2020

使用张量列车矩阵表示的高效 GPT 模型预训练

本研究通过将全连接层的矩阵替换为相应的张量列车矩阵结构以减少 GPT-2 体系结构的参数数量，并提出了一种可扩展的张量化层，以提高模型效率和最终模型的稳定性。

Jun, 2023

神经网络模型简化的张量分解：一篇综述

该研究论文综述了六种张量分解方法及其在神经网络中的应用，说明使用这些方法可以明显地减少模型的大小，运行时间和能耗，在边缘设备上实现神经网络时效果显著。

Apr, 2023