通过引入 SKILL 方法,本文在自我监督学习研究领域提出了一种新的方法,通过层分组而非个别层进行知识蒸馏,实验结果表明,我们的 WavLM Base + 的蒸馏版本不仅优于 DPHuBERT,还在 30M 参数模型类的多个任务中达到了最先进的结果。
Feb, 2024
本文提出了一种名为 FitHuBERT 的新型语音自监督学习方法,通过在几乎所有模型组件上缩小尺寸并增加详细层级,并通过提示辅助蒸馏方法减少性能退化,将模型压缩至 HuBERT 大小的 23.8%和推理时间的 35.9%,在超级基准测试中实现 12.1%的字错误率和 13.3%的音素误差率。
Jul, 2022
本文旨在研究将 HuBERT 基于自监督学习的模型进行有效的蒸馏,用于自动语音识别。我们进行了综合研究,设计了一种简单有效的算法,将参数减少 17%,将推理速度翻倍,同时又能在功能上达到满意的性能降级。
Oct, 2022
在自监督学习中,通过基于数据的单元发现在语音处理领域迈入了新的阶段。本文展示了在学习语音的句子级表示中出现了音节组织。通过采用 “自蒸馏” 目标函数,在没有任何监督的情况下,对预训练的 HuBERT 进行微调,并添加一个汇总整个句子的聚合器标记。实验结果表明,该模型在语音中画定了明确的边界,并且帧之间的表示显示出显著的音节结构。此外,我们提出了一个用于评估语音句子级表示的新的基准任务,即 “Spoken Speech ABX”。与先前的模型相比,我们的模型在无监督音节发现和学习句子级表示方面表现出色。我们展示了 HuBERT 的自蒸馏能够产生音节组织,而不依赖外部标签或模态,并可能为口语语言建模提供新的、基于数据的单元。
Oct, 2023
本研究提出基于 Transformer 的语音自监督学习模型压缩方法,包括重用注意力矩阵并采用新型蒸馏策略。我们的通用压缩策略可在 SUPERB 基准测试中实现 7.72% 的音素错误率和 9.96% 的单词错误率。
May, 2023
将知识蒸馏方法应用于压缩 HuBERT 的 Transformer 层,减少参数数量并在自动语音识别中提升性能。
Sep, 2023
本文介绍了 DistilHuBERT,它是一种新的多任务学习框架,可从 HuBERT 模型中提取隐藏表示,节省了大量内存和训练时间成本,并且在十个不同的任务中保留了大多数性能,从而使得个人和设备上的 SSL 模型的预训练成为可能。
Oct, 2021
本论文中,我们使用知识蒸馏通过压缩 wav2vec 2.0 和 HuBERT 语音模型约 75% 的参数量,并分别在单任务和多任务框架上进行微调实验来进行全面的性能分析,实验结果表明,在关键词检测和说话人验证任务中,微调经过知识蒸馏的模型只有 0.1% 的准确率和 0.9% 的等误差率下降。
本文提出采用交叉失真映射和域对抗训练技术对自监督学习的语音预训练模型进行知识蒸馏,以缓解性能差距问题,具有较好的性能表现。
本文提出了一种多自监督语音模型集成的方法,通过使用层次平均聚合不同教师模型的表示,并为学生模型提出了多重预测头方法,从而大大提高了四个下游语音处理任务的性能,并在 SUPERB 基准的隐藏集轨道中取得了显著的成果。
Feb, 2023