通过解耦知识蒸馏，用 LSTM 压缩 HuBERT

Sep, 2023

通过解耦知识蒸馏，用 LSTM 压缩 HuBERT

Distilling HuBERT with LSTMs via Decoupled Knowledge Distillation

Danilo de Oliveira, Timo Gerkmann

TL;DR将知识蒸馏方法应用于压缩 HuBERT 的 Transformer 层，减少参数数量并在自动语音识别中提升性能。

Abstract

Much research effort is being applied to the task of compressing the knowledge of self-supervised models, which are powerful, yet large and memory consuming. In this work, we show that the original method of knowledge distillation (and its more recently proposed extension, decoupled kn

knowledge distillation self-supervised models memory consumption hubert network architecture

发现论文，激发创造

DistilHuBERT：基于层间蒸馏的 BERT 隐藏单元语音表示学习

本文介绍了 DistilHuBERT，它是一种新的多任务学习框架，可从 HuBERT 模型中提取隐藏表示，节省了大量内存和训练时间成本，并且在十个不同的任务中保留了大多数性能，从而使得个人和设备上的 SSL 模型的预训练成为可能。

Oct, 2021

知识蒸馏在多任务语音表示学习中的应用

本论文中，我们使用知识蒸馏通过压缩 wav2vec 2.0 和 HuBERT 语音模型约 75% 的参数量，并分别在单任务和多任务框架上进行微调实验来进行全面的性能分析，实验结果表明，在关键词检测和说话人验证任务中，微调经过知识蒸馏的模型只有 0.1% 的准确率和 0.9% 的等误差率下降。

Oct, 2022

DPHuBERT: 自监督语音模型的联合蒸馏和修剪

DPHuBERT 是一种基于联合蒸馏和修剪的任务无关压缩方法，适用于资源受限的应用，可应用于各种语音自监督学习模型，并优于纯蒸馏方法。

May, 2023

FitHuBERT：语音自监督学习知识蒸馏的更轻更深

本文提出了一种名为 FitHuBERT 的新型语音自监督学习方法，通过在几乎所有模型组件上缩小尺寸并增加详细层级，并通过提示辅助蒸馏方法减少性能退化，将模型压缩至 HuBERT 大小的 23.8％和推理时间的 35.9％，在超级基准测试中实现 12.1％的字错误率和 13.3％的音素误差率。

Jul, 2022

用未标记的转移数据将 BERT 蒸馏为简单的神经网络

该研究论文针对知识蒸馏在自然语言处理中预训练模型所遇到的问题，探讨利用领域内未标记的数据、有限的已标记数据和基于简单 RNN 模型的硬蒸馏方法解决师生模型间性能差异的问题。实验结果表明，使用软蒸馏和利用教师模型的中间表示，学生模型的性能可以进一步提高，而在低资源环境下，学生模型在保证与教师模型性能基本持平的情况下，可实现最多 26 倍的压缩比，针对多语言环境的扩展实验结果更是惊人。

Oct, 2019

自我监督语音模型的有效蒸馏在自动语音识别中的应用探究

本文旨在研究将 HuBERT 基于自监督学习的模型进行有效的蒸馏，用于自动语音识别。我们进行了综合研究，设计了一种简单有效的算法，将参数减少 17％，将推理速度翻倍，同时又能在功能上达到满意的性能降级。

Oct, 2022

序列标注的编码器 - 解码器 Transformer 蒸馏

本文提出了一个无幻觉的框架，以序列标记为例，该框架非常适用于蒸馏，追求计算效率的蒸馏方法有望从这些大模型获得的知识中获益，并在多个序列标记数据集上展现了新的卓越表现，证明了这个框架在少量数据学习场景下进行大模型蒸馏的有用性。

Feb, 2023

自监督语音模型的集成知识蒸馏

本文提出了一种多自监督语音模型集成的方法，通过使用层次平均聚合不同教师模型的表示，并为学生模型提出了多重预测头方法，从而大大提高了四个下游语音处理任务的性能，并在 SUPERB 基准的隐藏集轨道中取得了显著的成果。

Feb, 2023

SD-HuBERT：自蒸馏在 HuBERT 中引发音节组织

在自监督学习中，通过基于数据的单元发现在语音处理领域迈入了新的阶段。本文展示了在学习语音的句子级表示中出现了音节组织。通过采用 “自蒸馏” 目标函数，在没有任何监督的情况下，对预训练的 HuBERT 进行微调，并添加一个汇总整个句子的聚合器标记。实验结果表明，该模型在语音中画定了明确的边界，并且帧之间的表示显示出显著的音节结构。此外，我们提出了一个用于评估语音句子级表示的新的基准任务，即 “Spoken Speech ABX”。与先前的模型相比，我们的模型在无监督音节发现和学习句子级表示方面表现出色。我们展示了 HuBERT 的自蒸馏能够产生音节组织，而不依赖外部标签或模态，并可能为口语语言建模提供新的、基于数据的单元。

Oct, 2023

将解码与知识蒸馏并行进行：从语言模型到端到端语音识别的有效知识蒸馏

通过使用中间层和最终层，本研究提出了一种将 BERT 教师模型的知识蒸馏到自动语音识别模型中的新方法。实验证明，使用中间层作为蒸馏目标可以更有效地将语言模型知识蒸馏到较低的网络层，从而实现比外部语言模型的浅层融合更好的识别准确性，同时保持了快速并行解码。

Jan, 2024