自监督语音模型的集成知识蒸馏

Feb, 2023

Ensemble knowledge distillation of self-supervised speech models

Kuan-Po Huang, Tzu-hsun Feng, Yu-Kuan Fu, Tsu-Yuan Hsu, Po-Chieh Yen...

TL;DR本文提出了一种多自监督语音模型集成的方法，通过使用层次平均聚合不同教师模型的表示，并为学生模型提出了多重预测头方法，从而大大提高了四个下游语音处理任务的性能，并在 SUPERB 基准的隐藏集轨道中取得了显著的成果。

Abstract

Distilled self-supervised models have shown competitive performance and efficiency in recent years. However, there is a lack of experience in jointly distilling multiple self-supervised speech models. In our work, we performed →

self-supervised models ensemble knowledge distillation teacher models student models downstream speech processing

发现论文，激发创造

统一而有效的集成知识蒸馏

本文提出了一种有效的集成知识蒸馏方法，该方法能够从多个教师模型学习未标记数据的知识，并据此训练单个学生模型。研究表明，通过考虑不同教师之间的预测差异以及样本难度，可以进一步提高蒸馏的效果。

Apr, 2022

知识蒸馏在多任务语音表示学习中的应用

本论文中，我们使用知识蒸馏通过压缩 wav2vec 2.0 和 HuBERT 语音模型约 75% 的参数量，并分别在单任务和多任务框架上进行微调实验来进行全面的性能分析，实验结果表明，在关键词检测和说话人验证任务中，微调经过知识蒸馏的模型只有 0.1% 的准确率和 0.9% 的等误差率下降。

Oct, 2022

集成知识蒸馏：学习更强大和高效的网络

本研究提出了一种集成知识蒸馏方法，可以从不同的教师网络中提取知识，并将其蒸馏成一个紧凑的学生模型，以获得更好的分类准确性和模型泛化性能。实验结果表明，这种集成方法可以显著提高模型的分类准确性和泛化性能，特别是在数据量有限的情况下。

Sep, 2019

异构模型的 Top-K 推荐中的蒸馏

本研究提出了一种名为 HetComp 的知识蒸馏框架，用于将异构模型的整体知识转移给一个轻量级模型，以减少资源成本和推理延迟，该框架使用动态知识构建和自适应知识传输提供逐步更难的排序信息，并通过全面实验表明该框架能够显著提高精度和泛化性能。

Mar, 2023

技能：相似度感知的语音自我监督学习知识蒸馏

通过引入 SKILL 方法，本文在自我监督学习研究领域提出了一种新的方法，通过层分组而非个别层进行知识蒸馏，实验结果表明，我们的 WavLM Base + 的蒸馏版本不仅优于 DPHuBERT，还在 30M 参数模型类的多个任务中达到了最先进的结果。

Feb, 2024

深度学习中集成、知识蒸馏和自蒸馏的理解

探讨了深度学习模型集合如何提高测试准确率，以及如何使用知识蒸馏将集合的优越性能提取到单个模型中。并在此基础上，提出了一种新的理论，解释了在数据具有 “多视图” 结构的情况下，各自独立训练的神经网络集合确实可以明显提高测试准确率，而这种优越的效果也可以通过训练单个模型来匹配集合输出来证明，结果揭示了在深度学习中，集合模型以及 “黑暗知识” 是如何作用于知识蒸馏中的。最后，还证明了自身蒸馏也可以看作是隐式地组合集合模型和知识蒸馏以提高测试准确率。

Dec, 2020

Avatar 知识蒸馏：自我集成教师模式与不确定性

本文提出一种新的知识蒸馏方法 ——Avatar Knowledge Distillation (AKD)，通过生成因扰动转化而得的不同推理集合模型（Avatars）来协助学生模型更有效的学习，同时提出了一种基于推理模型差异的不确定性感知因素，以适应地调整 Avatars 的贡献，这种方法在不增加额外计算成本的前提下，将目标检测的平均精度提高了 0.7 AP，并将语义分割的平均 IoU 提高了 1.83。

May, 2023

基于设备的约束自监督语音表示学习在关键词检测中的应用：知识蒸馏

提出了一种基于知识蒸馏的自监督语音表示学习（S3RL）体系结构，用于在设备上进行关键词检测任务，通过使用双视角交叉相关蒸馏和教师的码本作为学习目标，在设备资源限制内构建自监督模型，对 Alexa 关键词检测任务表现出非凡的性能。

Jul, 2023

强化多教师选择的知识蒸馏

本文研究了一种改进模型压缩方法，通过强化学习动态调整知识蒸馏中教师模型的权重，从而提高了学生模型性能，适用于自然语言处理任务。

Dec, 2020

置信度感知的多教师知识蒸馏

该研究提出了一种自适应分配逐样本可靠度的方法，以每个教师的预测可信度来稳定知识转移过程，并结合中间层来提高学生成绩，在不同的教师 - 学生架构下，优于所有其他现有方法。

Dec, 2021