该论文提出了一种基于语音节奏的说话者嵌入方法,用于使用目标说话者的少量话语对音素持续时间进行建模。
Feb, 2024
我们提出了一种统一的系统,可以实现一次性的声音转换,包括语调、节奏和说话人属性,并利用自监督离散语音单元作为语言表示来解决语音转换过程中自然度、完整性等问题,并通过实验证明其在自然度、可理解性、说话人迁移性和韵律迁移性方面优于以往的方法。
Nov, 2022
通过深度学习,我们在大量语音记录的数据库上训练了一个中型递归神经网络,用于语言识别任务。网络能够在 40% 的情况下正确识别出 10 秒的语音记录的语言,并且在三分之二的情况下将语言排在前三名。可视化方法显示,从网络激活中构建的表示与语音节奏的分类系统一致,尽管得到的映射比重音节和音节定时语言之间的两个分离簇更复杂。通过识别网络激活与已知语音节奏度量之间的相关性,我们进一步分析了模型。这些发现展示了深度学习工具通过识别和探索与语言相关的声学特征空间,推动我们对语音节奏的认识的潜力。
Jan, 2024
本文提出了一种无需手动监督的端对端 wav 到 wav 生成模型,用于实现任意身份的歌声转换,该模型利用音响模型和提取的旋律特征来驱动基于波形的生成器,经实验证明,在音频质量方面表现显著优于基线方法。
Aug, 2020
DeepRapper 是一种基于 Transformer 的说唱生成系统,可以模拟说唱的韵律和节奏,通过逆向生成具备韵律表现形式的歌词,并在其中插入特殊符号以表现节奏,在宏观和微观层面上评估显示 DeepRapper 生成的歌曲质量高且具有创造性。
Jul, 2021
本研究提出了一种零样本文本转语音模型,使用自监督学习获取的语音表示模型进行条件控制,并引入了声学特征和音素持续时间预测器的分离调制以提高重现性能和语音转换效果。
Apr, 2023
该研究提出了一种基于自监督预训练模型的无配对数据标准的语音转换方法,不仅能够转换说话人的音色,而且还能够转换韵律及音调等语音韵律信息,并且在定量和定性评估中优于其他方法。
Dec, 2022
研究使用对抗学习来实现口音转换,能够将说话者的声音身份保留下来,并可将未知说话者的话语转换为多种口音,主观评估显示该模型生成更接近目标口音且类似于原说话者的音频。
本文介绍了 wav2vec-U 这种方法,可以通过无监督学习的方式训练语音识别模型,许多语种如 Kyrgyz、Swahili 和 Tatar 等成为了可能。
May, 2021
本文讨论并提出一种名为 Prosody2Vec 的语音重构模型,能够从无标记的情感语音语料库中学习韵律信息表示,并能在情感语音识别和情感语音转换等任务中有效地实现对韵律特征的捕捉,同时与 HuBERT 表示相结合时表现优于最先进的方法。