一个实验研究：评估 WavLM 和 BEST-RQ 的组合框架在文本到语音合成中的应用

Dec, 2023

一个实验研究：评估 WavLM 和 BEST-RQ 的组合框架在文本到语音合成中的应用

An Experimental Study: Assessing the Combined Framework of WavLM and BEST-RQ for Text-to-Speech Synthesis

Via Nielson, Steven Hillis

TL;DR我们提出了一种新的适用于文本到语音（TTS）模型的模型架构，将预训练的自监督学习（SSL）语音模型 WavLM 与简单的 BEST-RQ 向量量化框架相结合，通过在 LibriSpeech 数据集上的 SUPERB 基准测试实验证明，该模型表现明显不佳，我们推测这种表现偏差与使用量化器对原始音频波形和频谱图进行特征处理之间的差异有关，我们讨论了这种方法的局限性以更好地引导 TTS 的未来发展。

Abstract

We propose a new model architecture specifically suited for text-to-speech (TTS) models. We combine wavlm, a pre-trained self-supervised learning (SSL) speech model, and the best-rq vector quantization framework.

text-to-speech models wavlm best-rq vector quantization librispeech dataset tts advancements

发现论文，激发创造

开放式实现与研究最佳音质要求用于语音处理

自学习（SSL）在多种语音任务中被证明是有用的。然而，这些方法通常在数据、内存和计算资源方面要求非常高。BERT 基于随机投影量化器的语音预训练 (BEST-RQ) 是一种 SSL 方法，在自动语音识别（ASR）上表现出色，同时比其他 SSL 方法（如 wav2vec 2.0）更简单。尽管 BEST-RQ 表现出色，但原文缺乏细节，比如预训练中使用的 GPU/TPU 时长以及没有官方易于使用的开源实现。此外，除了 ASR 和语音翻译之外，BEST-RQ 还没有在其他下游任务上进行评估。在这项工作中，我们描述了随机投影量化器的重新实现，并在四个下游任务上与 wav2vec 2.0 进行了初步研究比较。我们讨论了我们实现的细节和差异。我们证明了随机投影量化器可以实现与 wav2vec 2.0 相似的下游性能，同时训练时间减少了两倍以上。

May, 2024

大型语言模型在语音合成中的提升：一项实证研究

本文综合实证研究了如何增强大型语言模型（LLMs）的语音合成能力，比较了三种 LLMs 和语音合成模型（VALL-E）的集成方法，结果显示利用 LLMs 作为文本编码器的耦合方法取得了最佳性能，比原始语音合成模型在讲话者相似度和词错误率（WER）方面表现更好。

Dec, 2023

QS-TTS：基于向量量化的自监督语音表示学习的半监督文本朗读合成

本文提出了一种新颖的半监督文本到语音（TTS）框架 QS-TTS，通过利用更多未标记的语音音频，并借助向量量化的自监督语音表示学习（VQ-S3RL）来改善 TTS 质量，从而降低对有监督数据的需求。

Aug, 2023

MOS 预测系统中语音表示的比较

本研究比较了自监督学习特征和谱特征的性能，并结合了两者以提高自动 MOS 的准确性。使用大规模听力测试语料库，发现 wav2vec 特征具有最佳的泛化能力，且结合特征组合表现最佳。

Jun, 2022

一种基于向量量化的方法用于实际自然语言转音频合成

使用真实世界的语音数据训练了一个新的 MQTTS 系统，其利用了多个代码组内的学习离散代码解决了 mel-spectrogram 基础的 autoregressive 模型中的训练和推理之间的不匹配，提高了语音合成的质量，并在客观和主观指标上显示出优异性。

Feb, 2023

WavLLM：面向健壮和适应性语音大语言模型的研究

WavLLM 是一种鲁棒且自适应的具有双编码器和提示感知的语音大型语言模型，通过两阶段课程学习方法来优化，以在各种语境下进行听觉任务的泛化和执行复杂任务。

Mar, 2024

大规模自监督学习的语音分离

本文探讨了如何扩大自监督学习（SSL）的规模，以更好地应用于语音分离问题。通过使用大量的预训练数据进行 fine-tuning，提出的模型在节省了 38% 计算成本的同时，相比于监督学习方法和基于 WavLM 的模型，在一些测试数据集上的单词错误率均有显著的改善。

Nov, 2022

将 WavLM 应用于语音情感识别

最近，人们对语音自我监督模型（SSL）在下游任务中的使用越来越关注。在大规模预训练模型通常优于从头开始训练的较小模型的情况下，人们对最佳微调策略的问题仍然很普遍。本文中，我们探讨了 WavLM Large 模型在 MSP Podcast Corpus 的语音情感识别任务中的微调策略。具体而言，我们进行了一系列实验，重点研究了来自话语中的性别和语义信息的使用。然后，我们总结了我们的发现，并描述了我们用于提交 Speech Emotion Recognition Challenge 2024 的最终模型。

May, 2024

贝叶斯 Transformer 语言模型在语音识别中的应用

使用贝叶斯学习框架和变分推断优化，提高了 Transformer 神经语言模型的泛化性能和模型鲁棒性。在 Switchboard 语料库和 DementiaBank 中的实验都获得了明显的性能提升。

Feb, 2021

统计语音波形合成的全面评估

本文评估亚马逊的统计语音波形合成系统，对其质量进行了深入评估，并与基于混合单元选择合成的系统进行比较，以便更好地了解其优缺点。

Nov, 2018