WavLM：用于完整语音处理的大规模自监督预训练

Oct, 2021

WavLM：用于完整语音处理的大规模自监督预训练

WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing

Sanyuan Chen, Chengyi Wang, Zhengyang Chen, Yu Wu, Shujie Liu...

TL;DR本篇论文提出了一种新的预训练模型 WavLM，通过联合学习掩蔽语音预测和去噪，利用 Transformer 结构的门控相对位置偏置来更好地捕捉输入语音的顺序，使 WavLM 不仅具有掩蔽语音预测的语音内容建模能力，同时也提高了对非 ASR 语音任务的潜力，其在 SUPERB 基准测试上取得了最先进的性能，并为各种语音处理任务带来了显着的改进。

Abstract

self-supervised learning (SSL) achieves great success in speech recognition, while limited exploration has been attempted for other speech processing tasks. As speech signal contains multi-faceted information inc

self-supervised learning speech processing pre-trained model masked speech prediction denoising

发现论文，激发创造

大规模自监督学习的语音分离

本文探讨了如何扩大自监督学习（SSL）的规模，以更好地应用于语音分离问题。通过使用大量的预训练数据进行 fine-tuning，提出的模型在节省了 38% 计算成本的同时，相比于监督学习方法和基于 WavLM 的模型，在一些测试数据集上的单词错误率均有显著的改善。

Nov, 2022

大规模多语种自我监督学习的联合预测与去噪

多语言自监督学习中的 WavLabLM 预训练方法，通过使用更强大的技术实现较高性能，同时提高训练效率，为更多研究团体开放自监督学习，达到和 XLS-R 相当的性能，并用相对较少的数据和资源。

Sep, 2023

将 WavLM 应用于语音情感识别

最近，人们对语音自我监督模型（SSL）在下游任务中的使用越来越关注。在大规模预训练模型通常优于从头开始训练的较小模型的情况下，人们对最佳微调策略的问题仍然很普遍。本文中，我们探讨了 WavLM Large 模型在 MSP Podcast Corpus 的语音情感识别任务中的微调策略。具体而言，我们进行了一系列实验，重点研究了来自话语中的性别和语义信息的使用。然后，我们总结了我们的发现，并描述了我们用于提交 Speech Emotion Recognition Challenge 2024 的最终模型。

May, 2024

WavLLM：面向健壮和适应性语音大语言模型的研究

WavLLM 是一种鲁棒且自适应的具有双编码器和提示感知的语音大型语言模型，通过两阶段课程学习方法来优化，以在各种语境下进行听觉任务的泛化和执行复杂任务。

Mar, 2024

自监督学习用于语音识别中间层辅助训练

利用中间层监督自监督学习（ILS-SSL）对语音预训练模型进行优化，可以更好地集中于音频内容信息学习，从而实现识别性能的提高，并且在语言模型不被使用情况下，相对字错率下降 23.5%。

Dec, 2021

自我监督的语音和说话者模型学到了什么？来自跨模型逐层分析的新发现

该研究探索了自监督学习模型在捕捉语音和说话者表示方面的能力，并发现具体层次的语音模型更专注于捕捉语言信息，而说话者模型则更注重对说话者表示的提炼。

Jan, 2024

BigSSL：大规模半监督学习在自动语音识别中的探索前沿

使用预先训练、自我训练和模型规模扩大的方法，利用大型、多样化的未标记数据集，我们取得了一系列使用巨型自动语音识别（ASR）模型的结果，表明它可以在极大的任务效率下使用仅有少量标记数据来实现最先进性能。在一个含有 34k 个小时标记数据的 ASR 任务中，通过微调一个 80 亿参数的预训练 Conformer 模型，我们可以实现仅有 3％的训练数据即可达到 SoTA 性能，并且使用完整的训练集可以显著提高 SoTA。我们还报告了使用大型预训练和自我训练模型对多个下游任务的通用收益，涵盖了许多语音领域的公共基准测试，并跨越了多个数据集大小的数量级，并利用预训练网络的学习表示在非 ASR 任务中取得了 SoTA 结果。

Sep, 2021

探究自监督预训练模型的集成特征在自动语音识别中的应用

本文介绍使用多个基于自监督学习的模型以及它们所提取特征的集成方法，改善语音识别任务的性能，并使用三种自监督模型 HuBERT、Wav2vec2.0 和 WaveLM 进行了实验，得到了较好的效果。

Jun, 2022

W2v-BERT: 结合对比学习和掩码语言建模进行自监督语音预训练

本文介绍了 w2v-BERT，一个基于 Masked Language Modeling 的 self-supervised 模型，结合了对比学习和 MLM，用于自我训练语音识别模型。通过对 Libri-Light 60k 语料库进行训练，该模型在测试数据集上相对于其他最先进的预训练模型减少了 5% 至 10% 的相对词错误率，并且在谷歌语音搜索数据集上相对于内部 Conformer-based wav2vec 2.0 模型提高了超过 30% 的相对性能。

Aug, 2021

语音翻译的大规模自监督和半监督学习

通过利用大量未标记的语音和文本数据（包括 Libri-Light 语音音频语料库和 CommonCrawl 语言建模）的预训练和自我训练，我们的实验结果表明，在不利用监督学习数据的前提下，通过 wav2vec 2.0 预训练、自我训练和配合语言模型的方法，能够使所有四个 CoVoST 2 语言对的 BLEU 平均值提高 2.6。代码和模型将公开发布。

Apr, 2021