样式手册：只使用语音数据进行任意 - 任意语音转换的内容相关说话风格建模

Sep, 2023

样式手册：只使用语音数据进行任意 - 任意语音转换的内容相关说话风格建模

Stylebook: Content-Dependent Speaking Style Modeling for Any-to-Any Voice Conversion using Only Speech Data

Hyungseob Lim, Kyungguen Byun, Sunkuk Moon, Erik Visser

TL;DR本文提出一种新方法，通过自监督学习 (SSL) 模型形成注意机制，从目标话语中提取丰富的风格信息并将其高效地转移到源语音内容，从而在无需文本转录或说话者标签的情况下忠实地再现目标说话者的说话风格。通过将风格信息和源语音内容作为输入，利用扩散式解码器生成转换的语音 mel 频谱图，实验证明本方法与扩散式生成模型结合能在任何语音转换任务中实现更好的说话者相似性，并且对于长话语的计算复杂度增加的抑制效果较好。

Abstract

While many recent any-to-any voice conversion models succeed in transferring some target speech's style information to the converted speech, they still lack the ability to faithfully reproduce the speaking style

voice conversion style information self-supervised learning attention mechanism generative model

发现论文，激发创造

数据增强用于文本转语音的跨说话人风格转移

使用语音转换进行数据增强，构建单说话人多风格的 TTS 系统，实现控制不同说话人的风格和保留目标说话人身份的表达性语音转换。

Feb, 2022

通过音素级内容 - 风格解耦实现文本转语音合成中的细粒度风格建模、转移和预测

该论文提出了一种新型的神经网络系统，用于情感文本转语音合成中的细粒度风格建模、转移和预测，该系统通过从音素水平的语音段的梅尔光谱图中提取风格嵌入来实现细粒度建模，并应用协作学习和对抗学习策略来实现内容和风格因素的有效区分。该系统不仅可以用于单个说话者情况下的不同内容的语音风格转移，还可以用于文本到语音合成，并在内容保留方面表现更好。

Nov, 2020

自监督上下文感知风格表示在表现性语音合成中的应用

本文提出了一种利用自我监督学习从大量纯文本中学习风格表达的新框架，采用情感词典和对比学习和深度聚类，最终在多风格变换文本到语音系统中得到了更好的结果。

Jun, 2022

StyleCap：基于语音和语言自我监督学习模型的自动口语样式字幕生成

StyleCap 提出了一种生成自然语言描述语音中出现的语言风格的方法，通过训练神经网络来预测前缀向量，并使用一个大型语言模型（LLM）的文本解码器从语音表示向量生成说话风格提示。

Nov, 2023

任何风格的自由发言

生成具有多样化头部动作的风格化说话头部对于实现自然的视频至关重要，本文提出了一种使用学习的风格码本通过生成模型来查询离散风格表示的新颖动态权重方法 Say Anything with Any Style（SAAS），并利用提取的风格和残余架构实现在源风格和任意目标风格之间预测嘴部形状的目的。

Mar, 2024

基于离散单元的风格转换的语音到语音翻译

直接语音到语音翻译（S2ST）结合了离散的自监督表示，取得了显著的准确性，但无法在翻译过程中保留源语音的说话人音色。我们提出了一个基于自监督模型的离散单元和神经编解码器的 S2ST 框架，用于样式转换。声学语言模型利用自监督的上下文学习，获得了样式转换的能力，无需依赖任何说话人平行数据，从而克服了数据稀缺的问题。通过使用大量的训练数据，我们的模型可以在之前未见过的源语言上进行零 - shot 跨语言样式转换。实验证明，我们的模型生成的翻译语音在高保真度和样式相似性上表现出色。音频样本可在此网址获取。

Sep, 2023

使用自监督语音表示模型进行零样本文本转语音合成

本研究提出了一种零样本文本转语音模型，使用自监督学习获取的语音表示模型进行条件控制，并引入了声学特征和音素持续时间预测器的分离调制以提高重现性能和语音转换效果。

Apr, 2023

通过分解表示学习改进零样本语音风格转换

本研究提出了一种基于解缠表示学习的零样本语音转换方法，通过在输入语音的内容嵌入和目标样式嵌入之间进行组合来实现对新声音的转换，可以在无先验知识和非并行数据的情况下完成，方法在 VCTK 数据集上进行验证，并在许多对多和零样本实验上展现出了最新的标志性结果。

Mar, 2021

StyleTTS：一种基于样式的生成模型，用于自然且多样化的文本转语音合成

提出了 StyleTTS，一种基于风格的生成模型，用于生成具有自然韵律的多样化语音，通过自监督学习表示发声风格，无需明确标记。在内部评估中，该模型在单人和多人语音数据集中均优于最先进的模型。

May, 2022

Grad-StyleSpeech: 基于扩散模型的任意说话人自适应语音合成

本研究提出了一种基于扩散模型的 Grad-StyleSpeech 方法，可以在很短时间内生成极具声音相似度的自适应语音合成，并在英文基准测试中显著优于最新的语音合成基线。

Nov, 2022