声音转换的节奏建模

Jul, 2023

Rhythm Modeling for Voice Conversion

Benjamin van Niekerk, Marc-André Carbonneau, Herman Kamper

TL;DR本文介绍了一种无监督学习的方法 ——Urhythmic，此方法用于转换语音节奏，通过时间拉伸的方式实现源言语音节奏与目标言语音节奏的匹配，实验表明，Urhythmic 在语音转换中具有更好的无监督学习特性和合成质量。

Abstract

voice conversion aims to transform source speech into a different target voice. However, typical voice conversion systems do not account for rhythm, which is an important factor in the perception of speaker ident

voice conversion rhythm conversion unsupervised method speaking rate prosody

发现论文，激发创造

基于语音韵律从音素和音素时长中提取说话人嵌入的多说话人语音合成

该论文提出了一种基于语音节奏的说话者嵌入方法，用于使用目标说话者的少量话语对音素持续时间进行建模。

Feb, 2024

一个自监督离散语音单元的统一单次韵律和说话人转换系统

我们提出了一种统一的系统，可以实现一次性的声音转换，包括语调、节奏和说话人属性，并利用自监督离散语音单元作为语言表示来解决语音转换过程中自然度、完整性等问题，并通过实验证明其在自然度、可理解性、说话人迁移性和韵律迁移性方面优于以往的方法。

Nov, 2022

语音韵律的声学表征：利用递归神经网络超越度量

通过深度学习，我们在大量语音记录的数据库上训练了一个中型递归神经网络，用于语言识别任务。网络能够在 40% 的情况下正确识别出 10 秒的语音记录的语言，并且在三分之二的情况下将语言排在前三名。可视化方法显示，从网络激活中构建的表示与语音节奏的分类系统一致，尽管得到的映射比重音节和音节定时语言之间的两个分离簇更复杂。通过识别网络激活与已知语音节奏度量之间的相关性，我们进一步分析了模型。这些发现展示了深度学习工具通过识别和探索与语言相关的声学特征空间，推动我们对语音节奏的认识的潜力。

Jan, 2024

无监督跨域歌声转换

本文提出了一种无需手动监督的端对端 wav 到 wav 生成模型，用于实现任意身份的歌声转换，该模型利用音响模型和提取的旋律特征来驱动基于波形的生成器，经实验证明，在音频质量方面表现显著优于基线方法。

Aug, 2020

DeepRapper: 用韵律和节奏建模生成说唱音乐的神经网络

DeepRapper 是一种基于 Transformer 的说唱生成系统，可以模拟说唱的韵律和节奏，通过逆向生成具备韵律表现形式的歌词，并在其中插入特殊符号以表现节奏，在宏观和微观层面上评估显示 DeepRapper 生成的歌曲质量高且具有创造性。

Jul, 2021

使用自监督语音表示模型进行零样本文本转语音合成

本研究提出了一种零样本文本转语音模型，使用自监督学习获取的语音表示模型进行条件控制，并引入了声学特征和音素持续时间预测器的分离调制以提高重现性能和语音转换效果。

Apr, 2023

离散无监督单元实现的语音风格转换

该研究提出了一种基于自监督预训练模型的无配对数据标准的语音转换方法，不仅能够转换说话人的音色，而且还能够转换韵律及音调等语音韵律信息，并且在定量和定性评估中优于其他方法。

Dec, 2022

保留语音特征的零 - shot 多音系转换

研究使用对抗学习来实现口音转换，能够将说话者的声音身份保留下来，并可将未知说话者的话语转换为多种口音，主观评估显示该模型生成更接近目标口音且类似于原说话者的音频。

Nov, 2022

无监督语音识别

本文介绍了 wav2vec-U 这种方法，可以通过无监督学习的方式训练语音识别模型，许多语种如 Kyrgyz、Swahili 和 Tatar 等成为了可能。

May, 2021

无监督语音重构中解离韵律表示

本文讨论并提出一种名为 Prosody2Vec 的语音重构模型，能够从无标记的情感语音语料库中学习韵律信息表示，并能在情感语音识别和情感语音转换等任务中有效地实现对韵律特征的捕捉，同时与 HuBERT 表示相结合时表现优于最先进的方法。

Dec, 2022