AdaPTwin：基于 Transformers 的产品双胞胎的低成本自适应压缩

Jun, 2024

AdaPTwin：基于 Transformers 的产品双胞胎的低成本自适应压缩

AdaPTwin: Low-Cost Adaptive Compression of Product Twins in Transformers

Emil Biju, Anirudh Sriram, Mert Pilanci

TL;DR在资源受限的环境中，我们提出一种名为 AdaPTwin 的低秩自适应压缩技术，它可以压缩转换器注意层中的产品相关权重矩阵对，以降低大型转换器模型的计算和存储开销，并实现对新说话人和声学环境的泛化性能。这种压缩技术只需 8 小时的语音数据进行微调，时间不到 20 分钟，与其他压缩方法相比成本极低，并且在压缩 Whisper 和 Distil-Whisper 模型时，词错误率仅增加不到 2%。

Abstract

While large transformer-based models have exhibited remarkable performance in speaker-independent speech recognition, their large size and computational requirements make them expensive or impractical to use in r

large transformer-based models speaker-independent speech recognition adaptive compression technique adaptwin compression methods

发现论文，激发创造

压缩基于 Transformer 的自监督模型用于语音处理

本文旨在探讨通过多种压缩技术（如剪枝和知识蒸馏）来减小基于 Transformer 的自监督模型的计算复杂度，以适应不同设备的应用场景，并通过比较参数数量、操作数和时间等指标，综合分析这些技术的优劣。

Nov, 2022

面向语音识别的统一说话人适应方法

本文提出了一种基于特征适应和模型适应的统一说话人自适应方法，其中采用一种说话人感知的持久性记忆模型进行特征适应，并使用一种新颖的逐步修剪方法进行模型适应。在 Librispeech 数据集上的实验结果表明，相对于基线方法，在一般说话人自适应和目标说话人自适应中使用所提出的方法可带来 2.74-6.52% 的词错误率下降，并且该方法具有良好的低资源适应性能。

Oct, 2021

Speechformer：减少直接语音翻译中的信息损失

提出了 Speechformer 的架构，该架构通过减少注意层中的内存使用，避免了初始的失真压缩，并根据更具信息的语言标准仅在较高级别上聚合信息，该架构在三种语言对 (en->de/es/nl) 上的实验表明了其有效性。

Sep, 2021

Recycle-and-Distill: 基于注意力映射重用和掩码蒸馏的 Transformer 语音 SSL 模型通用压缩策略

本研究提出基于 Transformer 的语音自监督学习模型压缩方法，包括重用注意力矩阵并采用新型蒸馏策略。我们的通用压缩策略可在 SUPERB 基准测试中实现 7.72％的音素错误率和 9.96％的单词错误率。

May, 2023

共享注意力权重用于快速 Transformer

本文提出一种基于共享注意力权重和隐藏状态重用的快速、轻量级的注意力模型，用于加速 Transformer 机器翻译系统，在十项 WMT 和 NIST OpenMT 任务上实现了平均 1.3 倍的速度提升（几乎不降低 BLEU）和与 Aan 模型的 1.8 倍加速（比没有使用注意力缓存的基线高出 16 倍）。

Jun, 2019

多任务多语言语音模型的高效压缩

在这项研究中，我们发现了 Whisper 这个多任务和多语言语音模型在少数语言上的性能问题，并证明这是与讲话者特征及模型相关偏差有关。针对这个问题，我们提出了 DistilWhisper 方法，通过轻量级的模型微调和知识蒸馏策略，在保留了多任务和多语言预训练的鲁棒性的同时，有效地提升了目标语言的 ASR 性能。

May, 2024

自然语言理解的量化感知和张量压缩 Transformer 训练

该论文提出了一种量化感知张量压缩训练方法，通过将 Transformer 模型的嵌入层和线性层压缩成小的低秩张量核，进一步获得低精度的模型表示进行端到端和蒸馏 - based 训练，并应用层与层的蒸馏方法将预训练的 Transformer 模型转换为量化和张量压缩的学生模型以提高收敛速度，并在两个自然语言理解任务中表现出高达 63 倍的压缩比、几乎无损的精度损失和显著的推断和训练加速。

Jun, 2023

稀疏二进制变换器用于多元时间序列建模

通过应用稀疏和二元权重变换器在多变量时间序列问题上，我们表明轻量级模型能够获得与相同结构的稠密浮点变换器相当的准确性。我们的模型在分类、异常检测和单步预测三个时间序列学习任务上取得了良好的结果，并应用了两种修改以减少注意力机制的计算复杂度，从而大大减少变换器中非零操作的数量。我们在参数数量、存储大小和浮点运算量（FLOPs）等多个度量标准上测量了我们的方法的计算节约，并展示了高达 53 倍的存储大小减少和高达 10.5 倍的 FLOPs 减少。

Aug, 2023

使用低比特 NxM 稀疏压缩预训练 Transformers 以增强自然语言理解

本文提出了新的框架 NxMiFormer，同时使用 ADMM 和 STE-based QAT 进行稀疏化和量化，通过搜索算法找到最优的异构压缩配置，使预处理 Transformer 网络在 NLU 测试中达到 93% 的压缩率并保持 98% 以上的准确性。

Jun, 2022

DPATD: 双阶段音频变压器降噪

通过利用较小的音频块作为输入，我们提出了一种名为 DPATD 的双相音频变压器模型，该模型组织了一个深层结构的变压器层以学习用于降噪的清洁音频序列。广泛的实验证明我们的模型优于现有技术方法。

Oct, 2023