降低自监督学习门槛：使用学术计算资源进行 HuBERT 预训练

Jun, 2023

降低自监督学习门槛：使用学术计算资源进行 HuBERT 预训练

Reducing Barriers to Self-Supervised Learning: HuBERT Pre-training with Academic Compute

William Chen, Xuankai Chang, Yifan Peng, Zhaoheng Ni, Soumi Maiti...

TL;DR本研究的目标是将自监督学习模型优化为适应学术限制，它们只需要使用 8 个 GPU 而不是 32 个 GPU 就可以实现与原始模型相近的性能，并探索了一种使用 ASR 模型跳过第一次预训练迭代的半监督路线。

Abstract

self-supervised learning (ssl) has led to great strides in speech processing. However, the resources needed to train these models has become prohibitively large as they continue to scale. Currently, only a few gr

self-supervised learning ssl hubert asr model pre-training

发现论文，激发创造

快速 - HuBERT：用于无监督语音表示学习的高效训练框架

近年来，自我监督学习方法在语音处理任务中取得了显著进展。本文提出了一种名为 Fast-HuBERT 的高效优化方法，通过分析 HuBERT 预训练的计算成本并引入一系列效率优化，实现了与原始实现相比，无性能降低、在 Librispeech 960h 基准上训练时间为 1.1 天、速度提升 5.2 倍的效果。此外，我们在 Fast-HuBERT 中探索了两种技术，并展示了与之前工作相一致的改进效果。

Sep, 2023

自我监督语音模型的有效蒸馏在自动语音识别中的应用探究

本文旨在研究将 HuBERT 基于自监督学习的模型进行有效的蒸馏，用于自动语音识别。我们进行了综合研究，设计了一种简单有效的算法，将参数减少 17％，将推理速度翻倍，同时又能在功能上达到满意的性能降级。

Oct, 2022

非监督单元发现在 SSL 语音表示方面的极限探索

本文提出了两个模型，MonoBERT 和 PolyBERT，它们使用上下文无关和上下文相关的音素为预训练提供了目标改进。我们的模型在 LibriSpeech 基准测试中显著优于其他自监督学习模型，无需迭代重新分簇和重新训练。此外，我们的模型配备上下文相关单元，甚至优于在预训练期间使用标记数据的目标改进模型。通过实验证明了如何逐步改进单元发现过程。

Jun, 2023

FitHuBERT：语音自监督学习知识蒸馏的更轻更深

本文提出了一种名为 FitHuBERT 的新型语音自监督学习方法，通过在几乎所有模型组件上缩小尺寸并增加详细层级，并通过提示辅助蒸馏方法减少性能退化，将模型压缩至 HuBERT 大小的 23.8％和推理时间的 35.9％，在超级基准测试中实现 12.1％的字错误率和 13.3％的音素误差率。

Jul, 2022

探究自监督预训练模型的集成特征在自动语音识别中的应用

本文介绍使用多个基于自监督学习的模型以及它们所提取特征的集成方法，改善语音识别任务的性能，并使用三种自监督模型 HuBERT、Wav2vec2.0 和 WaveLM 进行了实验，得到了较好的效果。

Jun, 2022

联合编码器 - 解码器自监督预训练用于 ASR

本文提出了一种新的自监督学习范式，利用解码器的威力提高语音识别下游任务的性能。HuBERT 框架用于计算编码器的传统掩蔽预测损失，同时在框架中引入了解码器和目标准备策略。最终，我们使用一个多任务 SSL 设置，其同时优化编码器和解码器损失，实现了 ASR 表现的 25% 相对改进。

Jun, 2022

分析影响基于自监督预训练表示在语音识别中的有效性因素

本文研究了在低资源环境下建立自动语音识别（ASR）系统的方法，发现自我监督学习预训练数据的相似性和数量对系统性能有显著影响，希望为语音领域改进 SSL-based 预训练模型的泛化性能提供指导。

Mar, 2022

自我监督表示在自动语音识别中的高效注入

我们提出了两种简单的方法，使用逐帧加法和交叉注意机制来高效地将自监督学习模型的表示纳入 ASR 架构，从而在训练期间避免使用自监督学习模型，加快了训练速度，并在 Librispeech 和 Tedlium 数据集上相较于基准模型实现了显著性能提升。

Apr, 2024

LightHuBERT: 一种轻量级可配置的语音表征学习方法，采用一次性隐藏单元 BERT

我们提出了 once-for-all Transformer 压缩框架 LightHuBERT，通过剪枝结构化参数自动找到所需的结构，成功地将嵌套数千个共享权重子网的基于 Transformer 的超网进行了设计，并使用两阶段蒸馏策略从 HuBERT 利用上下文化的潜在表征。在自动语音识别（ASR）和 SUPERB 基准测试上实验表明，LightHuBERT 实现了超过 $10^9$ 种结构，深度，宽度，注意力维度，前馈网络比例和网络深度，在 ASR 和五个 SUPERB 任务上表现优于原始的 HuBERT，与该教师模型在大多数任务中表现相当，在三个 SUPERB 任务中具有 $3.5 imes$ 的压缩比，即自动说话人验证、关键词检测和意图分类，在稍微减少准确率的情况下，可以实现 29％的参数减少，并提供代码和预训练模型。

Mar, 2022

无缝语言扩展：增强自监督模型中的多语言掌握能力

我们提出了通过将 LoRA 整合到已有的自我监督模型中，实现新语言的自适应，并通过数据结合和重新聚类等保护策略来保持对已有和新语言的性能保持完整，实验证明该方法使 mHuBERT 应用于新语言（普通话）的 MOS 值增加 1.6，WER 相对值减少了 61.72%。

Jun, 2024