本论文中,我们使用知识蒸馏通过压缩 wav2vec 2.0 和 HuBERT 语音模型约 75% 的参数量,并分别在单任务和多任务框架上进行微调实验来进行全面的性能分析,实验结果表明,在关键词检测和说话人验证任务中,微调经过知识蒸馏的模型只有 0.1% 的准确率和 0.9% 的等误差率下降。
Oct, 2022
本研究介绍了一种基于 Conformer 架构的自我监督训练的优秀的全语境表示法,应用于多元语音任务,分析了上下文窗口的大小并证明了小窗口仍能取得接近最优表现。
Oct, 2021
EmoDistill 是一个新颖的语音情感识别(SER)框架,利用跨模态知识蒸馏在训练期间从语音中学习强大的语言和韵律情感表示。在推断过程中,我们的方法仅使用一系列语音信号执行单模态 SER,从而减少计算开销并避免运行时转录和韵律特征提取错误。在 IEMOCAP 基准上的实验证明,我们的方法以相当大的优势胜过其他单模态和多模态技术,并实现了 77.49%的非加权准确率和 78.91%的加权准确率。详细的消融研究展示了我们方法的每个组成部分的影响。
Sep, 2023
本研究提出了一个名为 Distill-L2S 的新方法,将一个已经训练好的跨语言语言模型转移到语音识别模型中,通过该方法在 20 种低资源语言中达到了优越性能。
Jun, 2022
我们进行了五个预训练模型的综合比较研究,评估了 TRILLsson 对多种语言的语音情感识别的效果,并表明 TRILLsson 能够有效地捕捉语音数据中的各种语音特征,从而实现更好的语音情感识别性能。
Feb, 2024
通过伪标注法,将较大的语音识别模型提炼为 Distil-Whisper 变体,使其在低延迟或资源有限的环境中更快速地执行,同时保持与原模型接近的性能。
Nov, 2023
本研究探讨利用预训练的声学模型,将词汇信息融合到声学语音信号中,以改善情感估计,特别是情感维度中的愉悦度估计,并且发现预训练的模型嵌入融合可比标准声学特征基线(Mel 滤波器的能量)产生更好的效果,且经测试可以推广到其他数据集上。
Jul, 2022
提出了一种基于知识蒸馏的自监督语音表示学习(S3RL)体系结构,用于在设备上进行关键词检测任务,通过使用双视角交叉相关蒸馏和教师的码本作为学习目标,在设备资源限制内构建自监督模型,对 Alexa 关键词检测任务表现出非凡的性能。
Jul, 2023
本文旨在研究将 HuBERT 基于自监督学习的模型进行有效的蒸馏,用于自动语音识别。我们进行了综合研究,设计了一种简单有效的算法,将参数减少 17%,将推理速度翻倍,同时又能在功能上达到满意的性能降级。
本文介绍了 DistilHuBERT,它是一种新的多任务学习框架,可从 HuBERT 模型中提取隐藏表示,节省了大量内存和训练时间成本,并且在十个不同的任务中保留了大多数性能,从而使得个人和设备上的 SSL 模型的预训练成为可能。