非监督单元发现在 SSL 语音表示方面的极限探索

Jun, 2023

非监督单元发现在 SSL 语音表示方面的极限探索

Pushing the Limits of Unsupervised Unit Discovery for SSL Speech Representation

Ziyang Ma, Zhisheng Zheng, Guanrou Yang, Yu Wang, Chao Zhang...

TL;DR本文提出了两个模型，MonoBERT 和 PolyBERT，它们使用上下文无关和上下文相关的音素为预训练提供了目标改进。我们的模型在 LibriSpeech 基准测试中显著优于其他自监督学习模型，无需迭代重新分簇和重新训练。此外，我们的模型配备上下文相关单元，甚至优于在预训练期间使用标记数据的目标改进模型。通过实验证明了如何逐步改进单元发现过程。

Abstract

The excellent generalization ability of self-supervised learning (SSL) for speech foundation models has garnered significant attention. hubert is a successful example that utilizes offline clustering to convert s

self-supervised learning hubert ssl targets monobert polybert

发现论文，激发创造

HuBERT：自监督语音表示学习通过隐藏单元的掩码预测

本研究提出了一个利用聚类和预测损失的自监督学习方法 HuBERT，来解决语音表示学习中存在的多个输入单元、无法在预训练阶段建立输入单元词典以及不明显的分割问题，该方法对于掩盖区域的预测损失、高质量的聚类步骤具有一定的鲁棒性，在多个基准测试集上的表现不低于当前最先进的 wav2vec 2.0 性能。

Jun, 2021

快速 - HuBERT：用于无监督语音表示学习的高效训练框架

近年来，自我监督学习方法在语音处理任务中取得了显著进展。本文提出了一种名为 Fast-HuBERT 的高效优化方法，通过分析 HuBERT 预训练的计算成本并引入一系列效率优化，实现了与原始实现相比，无性能降低、在 Librispeech 960h 基准上训练时间为 1.1 天、速度提升 5.2 倍的效果。此外，我们在 Fast-HuBERT 中探索了两种技术，并展示了与之前工作相一致的改进效果。

Sep, 2023

降低自监督学习门槛：使用学术计算资源进行 HuBERT 预训练

本研究的目标是将自监督学习模型优化为适应学术限制，它们只需要使用 8 个 GPU 而不是 32 个 GPU 就可以实现与原始模型相近的性能，并探索了一种使用 ASR 模型跳过第一次预训练迭代的半监督路线。

Jun, 2023

自我监督语音模型的有效蒸馏在自动语音识别中的应用探究

本文旨在研究将 HuBERT 基于自监督学习的模型进行有效的蒸馏，用于自动语音识别。我们进行了综合研究，设计了一种简单有效的算法，将参数减少 17％，将推理速度翻倍，同时又能在功能上达到满意的性能降级。

Oct, 2022

FitHuBERT：语音自监督学习知识蒸馏的更轻更深

本文提出了一种名为 FitHuBERT 的新型语音自监督学习方法，通过在几乎所有模型组件上缩小尺寸并增加详细层级，并通过提示辅助蒸馏方法减少性能退化，将模型压缩至 HuBERT 大小的 23.8％和推理时间的 35.9％，在超级基准测试中实现 12.1％的字错误率和 13.3％的音素误差率。

Jul, 2022

DistilHuBERT：基于层间蒸馏的 BERT 隐藏单元语音表示学习

本文介绍了 DistilHuBERT，它是一种新的多任务学习框架，可从 HuBERT 模型中提取隐藏表示，节省了大量内存和训练时间成本，并且在十个不同的任务中保留了大多数性能，从而使得个人和设备上的 SSL 模型的预训练成为可能。

Oct, 2021

探究自监督预训练模型的集成特征在自动语音识别中的应用

本文介绍使用多个基于自监督学习的模型以及它们所提取特征的集成方法，改善语音识别任务的性能，并使用三种自监督模型 HuBERT、Wav2vec2.0 和 WaveLM 进行了实验，得到了较好的效果。

Jun, 2022

SD-HuBERT：自蒸馏在 HuBERT 中引发音节组织

在自监督学习中，通过基于数据的单元发现在语音处理领域迈入了新的阶段。本文展示了在学习语音的句子级表示中出现了音节组织。通过采用 “自蒸馏” 目标函数，在没有任何监督的情况下，对预训练的 HuBERT 进行微调，并添加一个汇总整个句子的聚合器标记。实验结果表明，该模型在语音中画定了明确的边界，并且帧之间的表示显示出显著的音节结构。此外，我们提出了一个用于评估语音句子级表示的新的基准任务，即 “Spoken Speech ABX”。与先前的模型相比，我们的模型在无监督音节发现和学习句子级表示方面表现出色。我们展示了 HuBERT 的自蒸馏能够产生音节组织，而不依赖外部标签或模态，并可能为口语语言建模提供新的、基于数据的单元。

Oct, 2023

联合编码器 - 解码器自监督预训练用于 ASR

本文提出了一种新的自监督学习范式，利用解码器的威力提高语音识别下游任务的性能。HuBERT 框架用于计算编码器的传统掩蔽预测损失，同时在框架中引入了解码器和目标准备策略。最终，我们使用一个多任务 SSL 设置，其同时优化编码器和解码器损失，实现了 ASR 表现的 25% 相对改进。

Jun, 2022

MS-HuBERT: 针对语音表示学习中的预训练与推理不匹配进行缓解的遮蔽语言模型方法

提出了一种用于学习鲁棒语音表示的自我监督预训练方法 MS-HuBERT，通过解决预训练和推理不匹配问题，以及利用模型能力更有效地使用多聚类遮蔽预测损失，相比于传统的 HuBERT 在不同微调数据集上平均提高了 5% 的性能，并表明在预训练期间获得的嵌入式表示编码了提高内容相关任务（如 ASR）性能的重要信息。

Jun, 2024