自监督神经因子分析用于解开话语级语音表示的混杂信息

ICMLMay, 2023

自监督神经因子分析用于解开话语级语音表示的混杂信息

Self-supervised Neural Factor Analysis for Disentangling Utterance-level Speech Representations

Weiwei Lin, Chenhang He, Man-Wai Mak, Youzhi Tu

TL;DR通过聚类方法和因子分析模型，使用自监督学习的特征对 SSL 模型进行有监督微调，可用于说话人、情感和语言识别等级别任务，并提供更具有区分性的音频特征表示，此方法在 SUPERB 基准测试中表现良好。

Abstract

self-supervised learning (SSL) speech models such as wav2vec and HuBERT have demonstrated state-of-the-art performance on automatic speech recognition (ASR) and proved to be extremely useful in low label-resource settings. However, the success of SSL models has yet to transfer to

self-supervised learning utterance-level tasks disentangled representations factor analysis acoustic units

发现论文，激发创造

自我监督语音模型的有效蒸馏在自动语音识别中的应用探究

本文旨在研究将 HuBERT 基于自监督学习的模型进行有效的蒸馏，用于自动语音识别。我们进行了综合研究，设计了一种简单有效的算法，将参数减少 17％，将推理速度翻倍，同时又能在功能上达到满意的性能降级。

Oct, 2022

自我监督表示在自动语音识别中的高效注入

我们提出了两种简单的方法，使用逐帧加法和交叉注意机制来高效地将自监督学习模型的表示纳入 ASR 架构，从而在训练期间避免使用自监督学习模型，加快了训练速度，并在 Librispeech 和 Tedlium 数据集上相较于基准模型实现了显著性能提升。

Apr, 2024

ContentVec: 通过分解说话人的语音表示来改进自监督语音表示

本文介绍了一种新的自监督学习方法，采用 HuBERT 框架并结合分离机制，能够在不丢失语音信息的前提下实现说话人分离，并在内容相关的下游任务中获得显著的性能提升。

Apr, 2022

探究自监督预训练模型的集成特征在自动语音识别中的应用

本文介绍使用多个基于自监督学习的模型以及它们所提取特征的集成方法，改善语音识别任务的性能，并使用三种自监督模型 HuBERT、Wav2vec2.0 和 WaveLM 进行了实验，得到了较好的效果。

Jun, 2022

利用语义信息和音频文本蒸馏模型实现高效的自监督情绪识别

本文旨在将 HuBERT 等 self-supervised learning 的模型应用在 SER 系统中，并通过分析模型的每一层得出更好的情感识别效果，提出基于 audio-textual distilled SSL 的模型实现更为高效的情感识别。

May, 2023

分析影响基于自监督预训练表示在语音识别中的有效性因素

本文研究了在低资源环境下建立自动语音识别（ASR）系统的方法，发现自我监督学习预训练数据的相似性和数量对系统性能有显著影响，希望为语音领域改进 SSL-based 预训练模型的泛化性能提供指导。

Mar, 2022

FitHuBERT：语音自监督学习知识蒸馏的更轻更深

本文提出了一种名为 FitHuBERT 的新型语音自监督学习方法，通过在几乎所有模型组件上缩小尺寸并增加详细层级，并通过提示辅助蒸馏方法减少性能退化，将模型压缩至 HuBERT 大小的 23.8％和推理时间的 35.9％，在超级基准测试中实现 12.1％的字错误率和 13.3％的音素误差率。

Jul, 2022

非监督单元发现在 SSL 语音表示方面的极限探索

本文提出了两个模型，MonoBERT 和 PolyBERT，它们使用上下文无关和上下文相关的音素为预训练提供了目标改进。我们的模型在 LibriSpeech 基准测试中显著优于其他自监督学习模型，无需迭代重新分簇和重新训练。此外，我们的模型配备上下文相关单元，甚至优于在预训练期间使用标记数据的目标改进模型。通过实验证明了如何逐步改进单元发现过程。

Jun, 2023

联合编码器 - 解码器自监督预训练用于 ASR

本文提出了一种新的自监督学习范式，利用解码器的威力提高语音识别下游任务的性能。HuBERT 框架用于计算编码器的传统掩蔽预测损失，同时在框架中引入了解码器和目标准备策略。最终，我们使用一个多任务 SSL 设置，其同时优化编码器和解码器损失，实现了 ASR 表现的 25% 相对改进。

Jun, 2022

使用未标注的外部数据进行对抗性发声人分离的自监督表征语音转换

提出了一种基于声音转换技术的高相似度任意语音转换方法，该方法中使用了自监督学习方法及其提取的 SSL 输入表示，采用对抗训练机制和辅助判别器，通过外部未标注的大型语音语料库，在合成模块中成功解决了与 SSL 表示中的说话者信息与音色相似度有关的限制问题。实验结果表明，我们的方法在自然度高且相似度可比的情况下比监督方法更加灵活，同时可以推广至其他 SSL 表示作为输入的 VC 方法，而且无需大量标注数据的支持。

May, 2023