自监督神经因子分析用于解开话语级语音表示的混杂信息
本文旨在研究将 HuBERT 基于自监督学习的模型进行有效的蒸馏,用于自动语音识别。我们进行了综合研究,设计了一种简单有效的算法,将参数减少 17%,将推理速度翻倍,同时又能在功能上达到满意的性能降级。
Oct, 2022
我们提出了两种简单的方法,使用逐帧加法和交叉注意机制来高效地将自监督学习模型的表示纳入 ASR 架构,从而在训练期间避免使用自监督学习模型,加快了训练速度,并在 Librispeech 和 Tedlium 数据集上相较于基准模型实现了显著性能提升。
Apr, 2024
本文介绍了一种新的自监督学习方法,采用 HuBERT 框架并结合分离机制,能够在不丢失语音信息的前提下实现说话人分离,并在内容相关的下游任务中获得显著的性能提升。
Apr, 2022
本文介绍使用多个基于自监督学习的模型以及它们所提取特征的集成方法,改善语音识别任务的性能,并使用三种自监督模型 HuBERT、Wav2vec2.0 和 WaveLM 进行了实验,得到了较好的效果。
Jun, 2022
本文旨在将 HuBERT 等 self-supervised learning 的模型应用在 SER 系统中,并通过分析模型的每一层得出更好的情感识别效果,提出基于 audio-textual distilled SSL 的模型实现更为高效的情感识别。
May, 2023
本文研究了在低资源环境下建立自动语音识别(ASR)系统的方法,发现自我监督学习预训练数据的相似性和数量对系统性能有显著影响,希望为语音领域改进 SSL-based 预训练模型的泛化性能提供指导。
Mar, 2022
本文提出了一种名为 FitHuBERT 的新型语音自监督学习方法,通过在几乎所有模型组件上缩小尺寸并增加详细层级,并通过提示辅助蒸馏方法减少性能退化,将模型压缩至 HuBERT 大小的 23.8%和推理时间的 35.9%,在超级基准测试中实现 12.1%的字错误率和 13.3%的音素误差率。
Jul, 2022
本文提出了两个模型,MonoBERT 和 PolyBERT,它们使用上下文无关和上下文相关的音素为预训练提供了目标改进。我们的模型在 LibriSpeech 基准测试中显著优于其他自监督学习模型,无需迭代重新分簇和重新训练。此外,我们的模型配备上下文相关单元,甚至优于在预训练期间使用标记数据的目标改进模型。通过实验证明了如何逐步改进单元发现过程。
Jun, 2023
本文提出了一种新的自监督学习范式,利用解码器的威力提高语音识别下游任务的性能。HuBERT 框架用于计算编码器的传统掩蔽预测损失,同时在框架中引入了解码器和目标准备策略。最终,我们使用一个多任务 SSL 设置,其同时优化编码器和解码器损失,实现了 ASR 表现的 25% 相对改进。
Jun, 2022
提出了一种基于声音转换技术的高相似度任意语音转换方法,该方法中使用了自监督学习方法及其提取的 SSL 输入表示,采用对抗训练机制和辅助判别器,通过外部未标注的大型语音语料库,在合成模块中成功解决了与 SSL 表示中的说话者信息与音色相似度有关的限制问题。实验结果表明,我们的方法在自然度高且相似度可比的情况下比监督方法更加灵活,同时可以推广至其他 SSL 表示作为输入的 VC 方法,而且无需大量标注数据的支持。
May, 2023