通过分解表示学习改进零样本语音风格转换

ICLRMar, 2021

通过分解表示学习改进零样本语音风格转换

Improving Zero-shot Voice Style Transfer via Disentangled Representation Learning

Siyang Yuan, Pengyu Cheng, Ruiyi Zhang, Weituo Hao, Zhe Gan...

TL;DR本研究提出了一种基于解缠表示学习的零样本语音转换方法，通过在输入语音的内容嵌入和目标样式嵌入之间进行组合来实现对新声音的转换，可以在无先验知识和非并行数据的情况下完成，方法在 VCTK 数据集上进行验证，并在许多对多和零样本实验上展现出了最新的标志性结果。

Abstract

voice style transfer, also called voice conversion, seeks to modify one speaker's voice to generate speech as if it came from another (target) speaker. Previous works have made progress on →

voice style transfer voice conversion zero-shot disentangled representation learning vctk datasets

发现论文，激发创造

基于稳健解缠变分语音表示学习的零样本语音转换

本研究提出利用自监督分离式语音表示学习的新视角进行零样本语音转换，通过在序列变分自编码器中平衡全局说话人表示和时变内容表示之间的信息流实现分离，并应用实时数据增强培训策略以使所学表示不受噪声干扰。在 TIMIT 和 VCTK 数据集上表现出了优越性能，不仅在客观评估上表现良好，而且在主观评估方面具有鲁棒性，即使在源 / 目标语音帧存在噪声的情况下仍能保持不错的性能。

Mar, 2022

通用可推广的零样本说话者自适应语音合成与解绑表示

解决合成声音的自然性和说话人相似度降低的问题，我们提出了一种通用的零样本说话人自适应语音合成和声音转换模型。该模型使用解耦表示学习来改善模型的普适性，并利用变分自动编码器的表示学习能力增强说话人编码器，实验证明我们的模型在未知说话人上有更好的表现。

Aug, 2023

HierVST: 分层自适应零样本语音风格转换

本研究提出了一种分层适应性端到端的零样本语音风格转换模型，通过使用分层变分推断和自监督表示在仅使用语音数据集训练模型的情况下，实现了新的发声者的语音风格转换。该模型采用分层适应性生成器进行音调表示和波形音频逐步生成，利用无条件生成来提高声音相对的声学能力。实验结果表明，在零样本语音风格转换场景中，本方法优于其他语音风格转换模型。

Jul, 2023

ZS-MSTM: 基於對抗解綜多模態風格編碼的零樣式轉移理論在從文本和語音驅動的手勢動畫中的應用

本研究利用机器学习方法进行虚拟代理人的行为风格建模，通过多模态数据进行风格转换，包括不同演讲者的手势合成。通过实验证明，该方法能更好地捕捉语音中的风格信息，不受测试阶段未见演讲者的影响。

May, 2023

非平行序列到序列语音转换系统中的语言和说话人分离表征

本文提出了一种使用非并行训练数据的序列到序列（seq2seq）语音转换方法，该方法使用编码器 - 解码器神经网络框架构建模型，从声学特征中提取解交叉的语言和说话者表示，并通过保留源话语的语言表示，将说话者表示替换为目标音频的表示来实现语音转换。实验结果表明，该方法在语音转换挑战 2018 中得到了比最佳非并行语音转换方法更高的相似度和自然程度。

Jun, 2019

AUTOVC: 仅基于自动编码器损失的零样本语音风格转换

本文提出了一种新的艺术风格转换方案，它仅涉及一个带有仔细设计的瓶颈的自编码器，通过仅通过自重构损失进行训练，我们形式证明这种方案可以实现分布匹配的风格转换。我们基于此方案提出了 AUTOVC，并在非平行数据的多对多语音转换中实现了最先进的结果，这是首次进行零样本语音转换。

May, 2019

使用实例标准化分离说话者和内容表示进行单次语音转换

本文提出了一种使用仅一次源和目标说话者示例语音，通过实例归一化来分解说话者和语音内容表示的一次性语音转换方法，无需事先见过源和目标说话者训练模型即可执行声音转换，目标语音及说话者的相似性得到了客观和主观的评估，同时表明该模型可以在没有任何监督的情况下学习含义深层次的说话者表示。

Apr, 2019

零样本音频情感转换与说话人解缠

这篇文章介绍了一种高效的零射击情感风格转换的方法，通过分解语音为语义令牌、说话者表示和情感嵌入，并训练一个解码器来重构语音信号，实现将源语音中的情感内容与目标语音嵌入相结合，同时保留源语音中的说话者和语音内容。

Jan, 2024

无标签风格迁移：量化 VAE 和基于发言人的归一化在语音合成中的跨说话人风格转换

本研究提出了一种基于 Q-VAE 和批归一化以及数据增强的跨说话人语音风格转移方法，无需使用手动标注的标签即可实现从源说话人到目标说话人的风格迁移，并证明了该方法优于基准方法。

Dec, 2022

基于面部驱动的零射声音转换与基于记忆的面音对齐

一个基于面部图像的零样本语音转换任务中，提出了一种新颖的零样本面部语音转换方法，通过使用面部 - 语音对齐模块和混合监督策略来实现从一个源说话者到一个目标说话者的语音特征转换，并引入预训练的零样本语音转换模型，通过大量实验证明了该方法在零样本面部语音转换任务中的优越性。

Sep, 2023