自监督语音模型的集成知识蒸馏
本文提出了一种有效的集成知识蒸馏方法,该方法能够从多个教师模型学习未标记数据的知识,并据此训练单个学生模型。研究表明,通过考虑不同教师之间的预测差异以及样本难度,可以进一步提高蒸馏的效果。
Apr, 2022
本论文中,我们使用知识蒸馏通过压缩 wav2vec 2.0 和 HuBERT 语音模型约 75% 的参数量,并分别在单任务和多任务框架上进行微调实验来进行全面的性能分析,实验结果表明,在关键词检测和说话人验证任务中,微调经过知识蒸馏的模型只有 0.1% 的准确率和 0.9% 的等误差率下降。
Oct, 2022
本研究提出了一种集成知识蒸馏方法,可以从不同的教师网络中提取知识,并将其蒸馏成一个紧凑的学生模型,以获得更好的分类准确性和模型泛化性能。实验结果表明,这种集成方法可以显著提高模型的分类准确性和泛化性能,特别是在数据量有限的情况下。
Sep, 2019
本研究提出了一种名为 HetComp 的知识蒸馏框架,用于将异构模型的整体知识转移给一个轻量级模型,以减少资源成本和推理延迟,该框架使用动态知识构建和自适应知识传输提供逐步更难的排序信息,并通过全面实验表明该框架能够显著提高精度和泛化性能。
Mar, 2023
通过引入 SKILL 方法,本文在自我监督学习研究领域提出了一种新的方法,通过层分组而非个别层进行知识蒸馏,实验结果表明,我们的 WavLM Base + 的蒸馏版本不仅优于 DPHuBERT,还在 30M 参数模型类的多个任务中达到了最先进的结果。
Feb, 2024
探讨了深度学习模型集合如何提高测试准确率,以及如何使用知识蒸馏将集合的优越性能提取到单个模型中。并在此基础上,提出了一种新的理论,解释了在数据具有 “多视图” 结构的情况下,各自独立训练的神经网络集合确实可以明显提高测试准确率,而这种优越的效果也可以通过训练单个模型来匹配集合输出来证明,结果揭示了在深度学习中,集合模型以及 “黑暗知识” 是如何作用于知识蒸馏中的。最后,还证明了自身蒸馏也可以看作是隐式地组合集合模型和知识蒸馏以提高测试准确率。
Dec, 2020
本文提出一种新的知识蒸馏方法 ——Avatar Knowledge Distillation (AKD),通过生成因扰动转化而得的不同推理集合模型(Avatars)来协助学生模型更有效的学习,同时提出了一种基于推理模型差异的不确定性感知因素,以适应地调整 Avatars 的贡献,这种方法在不增加额外计算成本的前提下,将目标检测的平均精度提高了 0.7 AP,并将语义分割的平均 IoU 提高了 1.83。
May, 2023
提出了一种基于知识蒸馏的自监督语音表示学习(S3RL)体系结构,用于在设备上进行关键词检测任务,通过使用双视角交叉相关蒸馏和教师的码本作为学习目标,在设备资源限制内构建自监督模型,对 Alexa 关键词检测任务表现出非凡的性能。
Jul, 2023
该研究提出了一种自适应分配逐样本可靠度的方法,以每个教师的预测可信度来稳定知识转移过程,并结合中间层来提高学生成绩,在不同的教师 - 学生架构下,优于所有其他现有方法。
Dec, 2021