Recycle-and-Distill: 基于注意力映射重用和掩码蒸馏的 Transformer 语音 SSL 模型通用压缩策略

May, 2023

Recycle-and-Distill: 基于注意力映射重用和掩码蒸馏的 Transformer 语音 SSL 模型通用压缩策略

Recycle-and-Distill: Universal Compression Strategy for Transformer-based Speech SSL Models with Attention Map Reusing and Masking Distillation

PDF

Kangwook Jang, Sungnyun Kim, Se-Young Yun, Hoirin Kim

TL;DR本研究提出基于 Transformer 的语音自监督学习模型压缩方法，包括重用注意力矩阵并采用新型蒸馏策略。我们的通用压缩策略可在 SUPERB 基准测试中实现 7.72％的音素错误率和 9.96％的单词错误率。

Abstract

transformer-based speech self-supervised learning (SSL) models, such as HuBERT, show surprising performance in various speech processing tasks. However, huge number of parameters in speech SSL models necessitate the com

transformer-based speech self-supervised learning compression attention maps masking distillation strategy phoneme error rate

发现论文，激发创造

DPHuBERT: 自监督语音模型的联合蒸馏和修剪

DPHuBERT 是一种基于联合蒸馏和修剪的任务无关压缩方法，适用于资源受限的应用，可应用于各种语音自监督学习模型，并优于纯蒸馏方法。

May, 2023

FitHuBERT：语音自监督学习知识蒸馏的更轻更深

本文提出了一种名为 FitHuBERT 的新型语音自监督学习方法，通过在几乎所有模型组件上缩小尺寸并增加详细层级，并通过提示辅助蒸馏方法减少性能退化，将模型压缩至 HuBERT 大小的 23.8％和推理时间的 35.9％，在超级基准测试中实现 12.1％的字错误率和 13.3％的音素误差率。

Jul, 2022

自我监督语音模型的有效蒸馏在自动语音识别中的应用探究

本文旨在研究将 HuBERT 基于自监督学习的模型进行有效的蒸馏，用于自动语音识别。我们进行了综合研究，设计了一种简单有效的算法，将参数减少 17％，将推理速度翻倍，同时又能在功能上达到满意的性能降级。

Oct, 2022

STaR: 为轻量级语音自监督学习模型提取语音时序相关性

通过使用 STaR（speech temporal relation）蒸馏方法，能够在参数较少的情况下压缩和保持语音自监督学习模型的表现，该方法适用于不同的语音自监督学习模型并具有鲁棒的性能。

Dec, 2023

MiniLM: 预训练 Transformer 的深度自注意力蒸馏的任务无关压缩

本文通过对最后一层 Transformer 模型中的自我注意模块的蒸馏，提出了一种简单有效的压缩大型预训练模型的方法，同时引入了新的 “缩放点积” 深层自我注意知识，并在这个基础上设计了一个小留学生模型来减少参数量和延迟，实现了对 GLUE 质量基准测试的有效超越。

Feb, 2020

DistilHuBERT：基于层间蒸馏的 BERT 隐藏单元语音表示学习

本文介绍了 DistilHuBERT，它是一种新的多任务学习框架，可从 HuBERT 模型中提取隐藏表示，节省了大量内存和训练时间成本，并且在十个不同的任务中保留了大多数性能，从而使得个人和设备上的 SSL 模型的预训练成为可能。

Oct, 2021

通过解耦知识蒸馏，用 LSTM 压缩 HuBERT

将知识蒸馏方法应用于压缩 HuBERT 的 Transformer 层，减少参数数量并在自动语音识别中提升性能。

Sep, 2023

压缩基于 Transformer 的自监督模型用于语音处理

本文旨在探讨通过多种压缩技术（如剪枝和知识蒸馏）来减小基于 Transformer 的自监督模型的计算复杂度，以适应不同设备的应用场景，并通过比较参数数量、操作数和时间等指标，综合分析这些技术的优劣。

Nov, 2022

改善自监督语音处理模型在扭曲场景下的泛化性能

本文提出采用交叉失真映射和域对抗训练技术对自监督学习的语音预训练模型进行知识蒸馏，以缓解性能差距问题，具有较好的性能表现。

Oct, 2022

知识蒸馏在多任务语音表示学习中的应用

本论文中，我们使用知识蒸馏通过压缩 wav2vec 2.0 和 HuBERT 语音模型约 75% 的参数量，并分别在单任务和多任务框架上进行微调实验来进行全面的性能分析，实验结果表明，在关键词检测和说话人验证任务中，微调经过知识蒸馏的模型只有 0.1% 的准确率和 0.9% 的等误差率下降。

Oct, 2022