StyleSpeech: 参数高效的预训练可控文本到语音微调

Aug, 2024

StyleSpeech: 参数高效的预训练可控文本到语音微调

StyleSpeech: Parameter-efficient Fine Tuning for Pre-trained Controllable Text-to-Speech

Haowei Lou, Helen Paik, Wen Hu, Lina Yao

TL;DR本文提出了StyleSpeech，一个新颖的文本到语音（TTS）系统，旨在提高合成语音的自然性和准确性。通过引入独特的风格装饰器结构，该系统使深度学习模型能够同时学习风格和音素特征，进而实现更高的适应性和效率。该研究的显著发现表明，StyleSpeech在生成自然、准确且高质量的语音方面明显优于现有的最新技术，为动态和专业的TTS系统应用开辟了新路径。

Abstract

This paper introduces StyleSpeech, a novel Text-to-Speech~(TTS) system that enhances the Naturalness and accuracy of synthesized speech. Building upon existing TTS technologies, StyleSpeech incorporates a unique

发现论文，激发创造

从文本预测端到端语音合成中的表现性语音风格

本文介绍了一种名为“Text-Predicted Global Style Token”的结构，能够使用GST技术，仅通过文本预测生成带有语音样式的合成语音，无需显式标签或辅助输入，并证明其能生成比两种基线模型更多具有音高和能量变化的音频，并且能够成功地分离说话者身份和语音风格。

Aug, 2018

元音风格语音: 多说话人适应性文本转语音生成

该研究提出了一种名为StyleSpeech的新型神经文本到语音合成模型，其中使用Style-Adaptive Layer Normalization以及Meta-StyleSpeech等技术，实现了在只有短时音频样本的情况下，能够高质量地合成符合目标人物语音风格的语音。实验结果显示，该模型能够显著地超越基准模型。

Jun, 2021

GenerSpeech:通向可推广的跨域文本转语音风格转移

GenerSpeech是一种用于处理out-of-domain(OOD)语音合成的文本到语音模型，具有高保真的零样式迁移能力。它通过两个组件将语音变化分解为样式不可知和样式特定部分，以提高模型的泛化能力，并在零样式迁移和自适应样式迁移方面超过了现有技术。

May, 2022

StyleTTS：一种基于样式的生成模型，用于自然且多样化的文本转语音合成

提出了 StyleTTS，一种基于风格的生成模型，用于生成具有自然韵律的多样化语音，通过自监督学习表示发声风格，无需明确标记。在内部评估中，该模型在单人和多人语音数据集中均优于最先进的模型。

May, 2022

Grad-StyleSpeech: 基于扩散模型的任意说话人自适应语音合成

本研究提出了一种基于扩散模型的 Grad-StyleSpeech方法，可以在很短时间内生成极具声音相似度的自适应语音合成，并在英文基准测试中显著优于最新的语音合成基线。

Nov, 2022

StyleTTS 2：通过样式扩散和大型语音语言模型的对抗训练实现人类水平的文本朗读

本文提出了StyleTTS2，它是一个使用了样式扩散和对抗训练技术以及大型语音语言模型的文本转语音模型，它能够有效地进行潜在扩散，实现单个和多个说话人的人类级TTS合成。

Jun, 2023

StyleSpeech：基于VQ-VAE的自监督风格增强与情感化有声书语音合成预训练

通过VQ-VAE的自监督式预训练，我们提出了一种自我监督式风格增强方法，用于表达性有声读物语音合成，实验证明我们的方法能够有效地提高有声读物合成中合成语音的自然度和表现力。

Dec, 2023

StyleChat: 基于LMM的记忆式学习在风格化对话生成中的应用

通过构建38种风格的语料库，研究团队提出了一种基于记忆和多任务学习策略的对话生成框架StyleChat，它能够有效地解决基于大规模语言模型的风格化对话生成中的数据偏差问题，并在测试中取得了优秀的表现。

Mar, 2024

表达性语音合成的风格混合专家模型

该研究提出了StyleMoE方法，通过将风格编码器建模的嵌入空间划分为可处理的子集，然后由专家处理。实验结果明确展示了该方法在增加多样且未知风格的风格空间覆盖方面的有效性，能够提升现有领先的风格转换语音合成模型的性能，并首次将Mixture of Experts引入风格转换语音合成转换领域。

Jun, 2024

风格对话生成器：微调音频语言模型与基于风格的文本到语音模型以实现快速语音对话生成

本研究解决了在语音对话生成中实时性与自然性不足的问题，提出了一种创新框架Style-Talker，通过微调音频语言模型与风格化文本到语音模型，利用用户输入音频生成响应的语音风格与文本。实验结果显示，Style-Talker在对话的自然性与连贯性上显著优于传统的级联模型，同时速度提高超过50%。

Aug, 2024