MT4SSL: 整合多个目标进行自监督语音表征学习的提升

Nov, 2022

MT4SSL: 整合多个目标进行自监督语音表征学习的提升

MT4SSL: Boosting Self-Supervised Speech Representation Learning by Integrating Multiple Targets

Ziyang Ma, Zhisheng Zhen, Changli Tang, Yujin Wang, Xie Chen

TL;DR本文从获取自我训练目标的角度提供了一个新的自监督语音模型视角，并将目标提取器概括为离线目标提取器（Off-TE）和在线目标提取器（On-TE），在此基础上，提出了一个新的多任务学习框架 MT4SSL（即将多个目标整合以提高自监督语音表示学习），该模型在 LibriSpeech 基准测试中优于以前的 SSL 方法，并且在不需要超过数据的情况下，可与最佳表现模型相媲美甚至更好，在预训练阶段中使用 Off-TE 和 On-TE 可导致更好的收敛，因此我们认为从我们的角度在自监督语音模型上进行多任务学习是一个有前途的趋势。

Abstract

In this paper, we provide a new perspective on self-supervised speech models from how the self-training targets are obtained. We generalize the targets extractor into Offline targets extractor (Off-TE) and Online

self-supervised learning speech models multi-task learning targets extractor pre-training

发现论文，激发创造

非监督单元发现在 SSL 语音表示方面的极限探索

本文提出了两个模型，MonoBERT 和 PolyBERT，它们使用上下文无关和上下文相关的音素为预训练提供了目标改进。我们的模型在 LibriSpeech 基准测试中显著优于其他自监督学习模型，无需迭代重新分簇和重新训练。此外，我们的模型配备上下文相关单元，甚至优于在预训练期间使用标记数据的目标改进模型。通过实验证明了如何逐步改进单元发现过程。

Jun, 2023

探究自监督预训练模型的集成特征在自动语音识别中的应用

本文介绍使用多个基于自监督学习的模型以及它们所提取特征的集成方法，改善语音识别任务的性能，并使用三种自监督模型 HuBERT、Wav2vec2.0 和 WaveLM 进行了实验，得到了较好的效果。

Jun, 2022

使用自监督语音表示模型进行零样本文本转语音合成

本研究提出了一种零样本文本转语音模型，使用自监督学习获取的语音表示模型进行条件控制，并引入了声学特征和音素持续时间预测器的分离调制以提高重现性能和语音转换效果。

Apr, 2023

自监督语音模型在音频表示方面的功效

本研究提出融合自监督学习语音模型嵌入的集成框架，旨在探究其在音频和非语音任务中的表示能力，实验证明该框架普遍优于当前最先进的自监督学习语音 / 音频模型，特别在面对细粒度音乐任务时也表现出强大的能力。

Sep, 2022

ATST: 带有教师 - 学生 Transformer 的音频表示学习

本文提出了一个新的基于 Transformer 编码器的自监督学习模型 ——ATST，该模型可解决分段级别的音频自监督学习问题。在新的正对配对策略的支持下，ATST 模型在多项下游任务中实现了最新的最佳表现。

Apr, 2022

无缝语言扩展：增强自监督模型中的多语言掌握能力

我们提出了通过将 LoRA 整合到已有的自我监督模型中，实现新语言的自适应，并通过数据结合和重新聚类等保护策略来保持对已有和新语言的性能保持完整，实验证明该方法使 mHuBERT 应用于新语言（普通话）的 MOS 值增加 1.6，WER 相对值减少了 61.72%。

Jun, 2024

具备语言意识的自监督学习多语言机器翻译

本文探讨了如何利用自监督学习的方法，在多语言机器翻译任务中实现参数的有利学习，其中采用了基于噪声消除的简单自监督任务，并将其与原有任务同时进行。通过这两种方法的结合，在 8 种和 15 种语言基准测试中分别比 MASS 等三种最先进的自监督学习方法提高了 11.3％和 3.7％的性能。

Feb, 2023

关于使用自监督语音表示在自发语音合成中的研究

本研究探讨了自监督学习在 spontaneous TTS 和 MOS 预测中的适用性，并在实验中比较了 6 种不同的 SSL 及每种模型中的不同层次，旨在深入了解 SSL 的应用。

Jul, 2023

LASER：通过自我监督学习对齐语音表示以改进内容相关任务

使用 SSFT 方法 LASER，通过自附着自监督表示的学习和对齐，通过少量的 GPU 精调获得相对于 ASR 和 PR 任务的显著改进。

Jun, 2024

EAT：高效音频 Transformer 的自监督预训练

提出了高效音频 Transformer（EAT）模型，通过自监督训练范式和新颖的话语 - 帧目标（UFO）增强声音事件建模能力，探究了掩模策略在音频自监督学习中的关键性作用，并在多种音频相关任务中实现了最先进的性能，并且相比现有的音频自监督学习模型，预训练速度提升了约 15 倍。

Jan, 2024