Distil-Whisper: 大规模伪标记下的鲁棒知识蒸馏

Nov, 2023

Distil-Whisper: 大规模伪标记下的鲁棒知识蒸馏

Distil-Whisper: Robust Knowledge Distillation via Large-Scale Pseudo Labelling

Sanchit Gandhi, Patrick von Platen, Alexander M. Rush

TL;DR通过伪标注法，将较大的语音识别模型提炼为 Distil-Whisper 变体，使其在低延迟或资源有限的环境中更快速地执行，同时保持与原模型接近的性能。

Abstract

As the size of pre-trained speech recognition models increases, running these large models in low-latency or resource-constrained environments becomes challenging. In this work, we leverage →

pre-trained speech recognition pseudo-labelling distillation low-latency environments resource-constrained environments

发现论文，激发创造

DistilWhisper: 通过语言专家高效蒸馏多任务语音模型

DistilWhisper 是一个轻量级模块化的 ASR 框架，通过语言专家和知识蒸馏的方式提高了 Whisper 的性能，同时保留了多任务和多语言预训练模型的鲁棒性，在目标语言中提高了 ASR 性能而仅引入了可忽略的参数开销。

Nov, 2023

Whisper-KDQ：基于知识蒸馏和量化引导的轻量化口语识别技术

本文介绍一种新的知识蒸馏和量化的方法，用于压缩预训练的语音识别模型 Whisper，保持其性能的同时减少模型大小和计算开销，实验结果表明该方法可以将原始模型压缩至 5.18X/10.48X，同时以字符误差率的 11.3％和 14.0％的相对减少量维持性能。

May, 2023

多任务多语言语音模型的高效压缩

在这项研究中，我们发现了 Whisper 这个多任务和多语言语音模型在少数语言上的性能问题，并证明这是与讲话者特征及模型相关偏差有关。针对这个问题，我们提出了 DistilWhisper 方法，通过轻量级的模型微调和知识蒸馏策略，在保留了多任务和多语言预训练的鲁棒性的同时，有效地提升了目标语言的 ASR 性能。

May, 2024

论鲁棒知识蒸馏的稳健性问题

在阿拉伯语自动语音识别（ASR）方面存在独特的挑战，为了克服这些挑战，本研究采用知识蒸馏技术将大型教师模型提取为更高效的小型学生模型，引入了一份人工标注的新数据集以评估五个少见的阿拉伯方言。在现有基准测试和新的方言数据上，我们的最佳蒸馏模型整体表现优于现有模型（SeamlessM4T-large-v2，WER=47.0%）和教师模型（Whisper-large-v2，WER=55.1%），并且在新的方言数据上的平均性能（WER=56.9%）超过了所有其他模型。通过错误分析，揭示了这些模型在方言数据上表现不佳的主要错误类型。

Jun, 2024

知识蒸馏在多任务语音表示学习中的应用

本论文中，我们使用知识蒸馏通过压缩 wav2vec 2.0 和 HuBERT 语音模型约 75% 的参数量，并分别在单任务和多任务框架上进行微调实验来进行全面的性能分析，实验结果表明，在关键词检测和说话人验证任务中，微调经过知识蒸馏的模型只有 0.1% 的准确率和 0.9% 的等误差率下降。

Oct, 2022

FitHuBERT：语音自监督学习知识蒸馏的更轻更深

本文提出了一种名为 FitHuBERT 的新型语音自监督学习方法，通过在几乎所有模型组件上缩小尺寸并增加详细层级，并通过提示辅助蒸馏方法减少性能退化，将模型压缩至 HuBERT 大小的 23.8％和推理时间的 35.9％，在超级基准测试中实现 12.1％的字错误率和 13.3％的音素误差率。

Jul, 2022

序列标注的编码器 - 解码器 Transformer 蒸馏

本文提出了一个无幻觉的框架，以序列标记为例，该框架非常适用于蒸馏，追求计算效率的蒸馏方法有望从这些大模型获得的知识中获益，并在多个序列标记数据集上展现了新的卓越表现，证明了这个框架在少量数据学习场景下进行大模型蒸馏的有用性。

Feb, 2023

DistilHuBERT：基于层间蒸馏的 BERT 隐藏单元语音表示学习

本文介绍了 DistilHuBERT，它是一种新的多任务学习框架，可从 HuBERT 模型中提取隐藏表示，节省了大量内存和训练时间成本，并且在十个不同的任务中保留了大多数性能，从而使得个人和设备上的 SSL 模型的预训练成为可能。

Oct, 2021

将预训练语言模型提炼为多语言自动语音识别模型

本研究提出了一个名为 Distill-L2S 的新方法，将一个已经训练好的跨语言语言模型转移到语音识别模型中，通过该方法在 20 种低资源语言中达到了优越性能。

Jun, 2022

自我监督语音模型的有效蒸馏在自动语音识别中的应用探究

本文旨在研究将 HuBERT 基于自监督学习的模型进行有效的蒸馏，用于自动语音识别。我们进行了综合研究，设计了一种简单有效的算法，将参数减少 17％，将推理速度翻倍，同时又能在功能上达到满意的性能降级。

Oct, 2022