MelHuBERT:基于 Mel 频谱的精简 HuBERT
近年来,自我监督学习方法在语音处理任务中取得了显著进展。本文提出了一种名为 Fast-HuBERT 的高效优化方法,通过分析 HuBERT 预训练的计算成本并引入一系列效率优化,实现了与原始实现相比,无性能降低、在 Librispeech 960h 基准上训练时间为 1.1 天、速度提升 5.2 倍的效果。此外,我们在 Fast-HuBERT 中探索了两种技术,并展示了与之前工作相一致的改进效果。
Sep, 2023
本研究提出了一个利用聚类和预测损失的自监督学习方法 HuBERT,来解决语音表示学习中存在的多个输入单元、无法在预训练阶段建立输入单元词典以及不明显的分割问题,该方法对于掩盖区域的预测损失、高质量的聚类步骤具有一定的鲁棒性,在多个基准测试集上的表现不低于当前最先进的 wav2vec 2.0 性能。
Jun, 2021
我们提出了 once-for-all Transformer 压缩框架 LightHuBERT,通过剪枝结构化参数自动找到所需的结构,成功地将嵌套数千个共享权重子网的基于 Transformer 的超网进行了设计,并使用两阶段蒸馏策略从 HuBERT 利用上下文化的潜在表征。在自动语音识别(ASR)和 SUPERB 基准测试上实验表明,LightHuBERT 实现了超过 $10^9$ 种结构,深度,宽度,注意力维度,前馈网络比例和网络深度,在 ASR 和五个 SUPERB 任务上表现优于原始的 HuBERT,与该教师模型在大多数任务中表现相当,在三个 SUPERB 任务中具有 $3.5 imes$ 的压缩比,即自动说话人验证、关键词检测和意图分类,在稍微减少准确率的情况下,可以实现 29% 的参数减少,并提供代码和预训练模型。
Mar, 2022
本文介绍了 DistilHuBERT,它是一种新的多任务学习框架,可从 HuBERT 模型中提取隐藏表示,节省了大量内存和训练时间成本,并且在十个不同的任务中保留了大多数性能,从而使得个人和设备上的 SSL 模型的预训练成为可能。
Oct, 2021
提出了一种用于学习鲁棒语音表示的自我监督预训练方法 MS-HuBERT,通过解决预训练和推理不匹配问题,以及利用模型能力更有效地使用多聚类遮蔽预测损失,相比于传统的 HuBERT 在不同微调数据集上平均提高了 5% 的性能,并表明在预训练期间获得的嵌入式表示编码了提高内容相关任务(如 ASR)性能的重要信息。
Jun, 2024
本研究提出了一种改进的 DistilHuBERT 模型,该模型引入了噪声和混响以及多任务学习的训练方法,能够有效提高在真实环境下的边缘语音应用中的鲁棒性。
Nov, 2022
mHuBERT-147 是第一个以 90K 小时的干净、开源数据训练的通用多语言 HuBERT 语音表示模型,通过基于 faiss 的聚类实现了 5.2 倍更快的标签分配速度,同时应用了新的多语言批量上采样策略,在只有 95M 个参数的情况下,在经过 3 次训练迭代后能够胜过在更多数据上训练的更大模型,并且在 ML-SUPERB 10 分钟 / 1 小时排行榜上分别排名第二和第一,在所有语种识别任务中具有最高的性能得分。在 ASR/LID 任务中,我们的模型始终超越 XLS-R(300M 个参数;436K 小时)并且与更大的 MMS(1B 个参数;491K 小时)具有很强的竞争力。我们的研究结果表明,mHuBERT-147 是一个有前景的多语言语音处理模型,提供了高性能和参数效率之间的前所未有的平衡。
Jun, 2024
本文提出了两个模型,MonoBERT 和 PolyBERT,它们使用上下文无关和上下文相关的音素为预训练提供了目标改进。我们的模型在 LibriSpeech 基准测试中显著优于其他自监督学习模型,无需迭代重新分簇和重新训练。此外,我们的模型配备上下文相关单元,甚至优于在预训练期间使用标记数据的目标改进模型。通过实验证明了如何逐步改进单元发现过程。
Jun, 2023
Spatial HuBERT 是一种自我监督的语音表示模型,通过使用多通道音频输入学习单个说话者在潜在嘈杂环境中的声学和空间信息,可以在多种空间下游任务中优于最先进的单通道语音表示,在混响和嘈杂环境中表现出色。
Oct, 2023
本研究的目标是将自监督学习模型优化为适应学术限制,它们只需要使用 8 个 GPU 而不是 32 个 GPU 就可以实现与原始模型相近的性能,并探索了一种使用 ASR 模型跳过第一次预训练迭代的半监督路线。
Jun, 2023