从离散语音表示合成个性化非语音声化
本研究提出了一个名为 Make-A-Voice 的语音合成框架,其中采用自监督数据集来实现文本语音合成、语音转换和唱歌声音合成等语音合成应用,并取得优越的音频质量和样式相似性。
May, 2023
提供了一种新的歌声合成方法 Prompt-Singer,使得合成歌声能够通过自然语言明确地控制歌手的性别、音域和音量,并使用基于解码器的 transformer 模型和多尺度层次结构设计了分离音域旋律的音高表示方法以保持旋律准确性,同时,对不同类型的文本表示、文本编码器微调和引入语音数据以减轻数据稀缺问题等不同实验设置进行了探索,旨在促进进一步的研究,实验证明该模型具有良好的控制能力和音频质量。
Mar, 2024
本研究提出了一种零样本文本转语音模型,使用自监督学习获取的语音表示模型进行条件控制,并引入了声学特征和音素持续时间预测器的分离调制以提高重现性能和语音转换效果。
Apr, 2023
该研究提出了一种基于自监督预训练模型的无配对数据标准的语音转换方法,不仅能够转换说话人的音色,而且还能够转换韵律及音调等语音韵律信息,并且在定量和定性评估中优于其他方法。
Dec, 2022
本文提出了一种基于对抗训练、表示瓶颈和音框级建模的无监督噪音建模方法和基于全层次变分自编码器的细粒度语调建模方法,以更好地进行语音合成并将主要因素与噪声和背景噪声分离。
Apr, 2022
通过归一化流(normalizing flows)实现从训练时未见过的声音身份合成逼真、自然的合成语音的研究中,我们创建了一种文本转语音(TTS)和语音转换(VC)的方法,并使用客观和主观指标来评估技术在零样本和新声音语音合成任务中的性能,实验证明该方法能够在零样本语音合成和创造未在训练集中出现的多种新声音方面取得最先进的性能。
Dec, 2023
本文提出了一种基于变分自动编码器的 TTS 系统 NaturalSpeech,通过多个关键模块提高文本先验的容量和语音后验的复杂度,同时在 LJSpeech 数据集上实验证明该系统在句子级别上达到了人类录音的 - 0.01 CMOS(比较平均意见分数),与人类录音不存在显著性差异。
May, 2022
我们提出了 SelfVC,一种训练策略,通过自我合成的示例来迭代改进语音转换模型。该模型在训练过程中使用自我监督学习和说话人验证模型生成的交织的语音表示来训练具有可控性的语音转换模型,并通过创建具有挑战性的自我合成示例来不断改进模型。SelfVC 在没有文本的情况下进行训练,并适用于零样本语音转换、跨语言语音转换以及具有音高和语速修改的可控语音合成任务。在自然度、说话人相似度和可理解性的评估指标上,SelfVC 在零样本语音转换方面取得了最先进的结果。
Oct, 2023
提出了一种神经分析合成(NANSY)框架,它可以操作任意语音信号的声音、音高和速度,通过使用信息扰动提出了一种新的训练策略,使 NANSY 具有高重构质量和可控性,不需要任何瓶颈结构,使用全自监督训练方式,可以在多个应用领域获得显著的性能提升。
Oct, 2021
介绍了一种使用口腔非语言声音控制的语音输入系统,该系统适用于语音障碍者;设计了数据集,考虑了模型部署和个性化;经过测试,模型实现了较高的精度和召回率,并且在个性化的情况下工作良好。
Feb, 2022