零样本音频情感转换与说话人解缠

Jan, 2024

零样本音频情感转换与说话人解缠

Zero Shot Audio to Audio Emotion Transfer With Speaker Disentanglement

Soumya Dutta, Sriram Ganapathy

TL;DR这篇文章介绍了一种高效的零射击情感风格转换的方法，通过分解语音为语义令牌、说话者表示和情感嵌入，并训练一个解码器来重构语音信号，实现将源语音中的情感内容与目标语音嵌入相结合，同时保留源语音中的说话者和语音内容。

Abstract

The problem of audio-to-audio (A2A) style transfer involves replacing the style features of the source audio with those from the target audio while preserving the content related attributes of the source audio. In this paper, we propose an efficient approach, termed as zero-shot emotion style

audio-to-audio style transfer zero-shot emotion style transfer semantic tokens speaker representations emotion embeddings

发现论文，激发创造

ZET-Speech：基于扩散和基于风格的模型的零样本自适应情感可控语音合成

本文提出了一种零样本适应情绪可控 TTS 模型 ZET-Speech，旨在实现对任何说话者情感语音的合成，采用了域对抗学习和扩散模型的引导方法，实验结果表明，ZET-Speech 成功地合成了所需情感的自然和情感语音，适用于已知和未知说话者。

May, 2023

通过分解表示学习改进零样本语音风格转换

本研究提出了一种基于解缠表示学习的零样本语音转换方法，通过在输入语音的内容嵌入和目标样式嵌入之间进行组合来实现对新声音的转换，可以在无先验知识和非并行数据的情况下完成，方法在 VCTK 数据集上进行验证，并在许多对多和零样本实验上展现出了最新的标志性结果。

Mar, 2021

ZS-MSTM: 基於對抗解綜多模態風格編碼的零樣式轉移理論在從文本和語音驅動的手勢動畫中的應用

本研究利用机器学习方法进行虚拟代理人的行为风格建模，通过多模态数据进行风格转换，包括不同演讲者的手势合成。通过实验证明，该方法能更好地捕捉语音中的风格信息，不受测试阶段未见演讲者的影响。

May, 2023

语音情感识别中的非监督语音风格转移数据增强

该文研究了语音情感识别中数据不足的问题，提出了一种称为 EmoAug 的情感样式转移模型，该模型可以用来增强音频数据的情感表达，包括应对数据不平衡的问题，实验表明该模型在提取语音情感特征方面的效果显著优于现有方法。

Nov, 2022

通过操作语音风格潜在因素进行跨说话人情感转移

本文提出一种基于潜在风格空间中的矢量算术方法的跨说话人情感转移和操纵研究，可以使用仅有的几个标记样本从阅读风格语音生成情感语音，并且情感强度可以轻松控制，保留了说话人的身份。实验结果表明这种方法在表达性、自然度和可控性方面具有优越性。

Mar, 2023

基于离散单元的风格转换的语音到语音翻译

直接语音到语音翻译（S2ST）结合了离散的自监督表示，取得了显著的准确性，但无法在翻译过程中保留源语音的说话人音色。我们提出了一个基于自监督模型的离散单元和神经编解码器的 S2ST 框架，用于样式转换。声学语言模型利用自监督的上下文学习，获得了样式转换的能力，无需依赖任何说话人平行数据，从而克服了数据稀缺的问题。通过使用大量的训练数据，我们的模型可以在之前未见过的源语言上进行零 - shot 跨语言样式转换。实验证明，我们的模型生成的翻译语音在高保真度和样式相似性上表现出色。音频样本可在此网址获取。

Sep, 2023

$Z^*$：基于注意力重排的零样式转移

通过理论分析和实验，本研究展示了扩散模型在零样式转换的有效性和优越性，并引入了交叉注意力重排策略，使样式信息能够直接提取并无缝集成到内容图像中。

Nov, 2023

通用可推广的零样本说话者自适应语音合成与解绑表示

解决合成声音的自然性和说话人相似度降低的问题，我们提出了一种通用的零样本说话人自适应语音合成和声音转换模型。该模型使用解耦表示学习来改善模型的普适性，并利用变分自动编码器的表示学习能力增强说话人编码器，实验证明我们的模型在未知说话人上有更好的表现。

Aug, 2023

使用自监督语音表示模型进行零样本文本转语音合成

本研究提出了一种零样本文本转语音模型，使用自监督学习获取的语音表示模型进行条件控制，并引入了声学特征和音素持续时间预测器的分离调制以提高重现性能和语音转换效果。

Apr, 2023

高分辨率情感和艺术风格的生成对话模型

通过集成情感风格和艺术风格的文本控制和图像控制条件，我们提出了一种创新的声音驱动的说话人生成方法称为 Style2Talker，并使用大规模预训练模型自动对现有音频 - 视觉数据集进行情感文本标注。我们的方法在语音嘴唇同步性、情感风格和艺术风格方面的性能优于现有的最先进方法。

Mar, 2024