Distil-Whisper: 大规模伪标记下的鲁棒知识蒸馏
DistilWhisper 是一个轻量级模块化的 ASR 框架,通过语言专家和知识蒸馏的方式提高了 Whisper 的性能,同时保留了多任务和多语言预训练模型的鲁棒性,在目标语言中提高了 ASR 性能而仅引入了可忽略的参数开销。
Nov, 2023
本文介绍一种新的知识蒸馏和量化的方法,用于压缩预训练的语音识别模型 Whisper,保持其性能的同时减少模型大小和计算开销,实验结果表明该方法可以将原始模型压缩至 5.18X/10.48X,同时以字符误差率的 11.3%和 14.0%的相对减少量维持性能。
May, 2023
在这项研究中,我们发现了 Whisper 这个多任务和多语言语音模型在少数语言上的性能问题,并证明这是与讲话者特征及模型相关偏差有关。针对这个问题,我们提出了 DistilWhisper 方法,通过轻量级的模型微调和知识蒸馏策略,在保留了多任务和多语言预训练的鲁棒性的同时,有效地提升了目标语言的 ASR 性能。
May, 2024
在阿拉伯语自动语音识别(ASR)方面存在独特的挑战,为了克服这些挑战,本研究采用知识蒸馏技术将大型教师模型提取为更高效的小型学生模型,引入了一份人工标注的新数据集以评估五个少见的阿拉伯方言。在现有基准测试和新的方言数据上,我们的最佳蒸馏模型整体表现优于现有模型(SeamlessM4T-large-v2,WER=47.0%)和教师模型(Whisper-large-v2,WER=55.1%),并且在新的方言数据上的平均性能(WER=56.9%)超过了所有其他模型。通过错误分析,揭示了这些模型在方言数据上表现不佳的主要错误类型。
Jun, 2024
本论文中,我们使用知识蒸馏通过压缩 wav2vec 2.0 和 HuBERT 语音模型约 75% 的参数量,并分别在单任务和多任务框架上进行微调实验来进行全面的性能分析,实验结果表明,在关键词检测和说话人验证任务中,微调经过知识蒸馏的模型只有 0.1% 的准确率和 0.9% 的等误差率下降。
Oct, 2022
本文提出了一种名为 FitHuBERT 的新型语音自监督学习方法,通过在几乎所有模型组件上缩小尺寸并增加详细层级,并通过提示辅助蒸馏方法减少性能退化,将模型压缩至 HuBERT 大小的 23.8%和推理时间的 35.9%,在超级基准测试中实现 12.1%的字错误率和 13.3%的音素误差率。
Jul, 2022
本文提出了一个无幻觉的框架,以序列标记为例,该框架非常适用于蒸馏,追求计算效率的蒸馏方法有望从这些大模型获得的知识中获益,并在多个序列标记数据集上展现了新的卓越表现,证明了这个框架在少量数据学习场景下进行大模型蒸馏的有用性。
Feb, 2023
本文介绍了 DistilHuBERT,它是一种新的多任务学习框架,可从 HuBERT 模型中提取隐藏表示,节省了大量内存和训练时间成本,并且在十个不同的任务中保留了大多数性能,从而使得个人和设备上的 SSL 模型的预训练成为可能。
Oct, 2021
本研究提出了一个名为 Distill-L2S 的新方法,将一个已经训练好的跨语言语言模型转移到语音识别模型中,通过该方法在 20 种低资源语言中达到了优越性能。
Jun, 2022
本文旨在研究将 HuBERT 基于自监督学习的模型进行有效的蒸馏,用于自动语音识别。我们进行了综合研究,设计了一种简单有效的算法,将参数减少 17%,将推理速度翻倍,同时又能在功能上达到满意的性能降级。
Oct, 2022