- MakeSinger: 一种用于数据高效的半监督训练方法的歌声合成,通过无分类器扩散引导
通过无分类器扩散引导的 MakeSinger 半监督训练方法,提高合成的歌声质量,并展示即使在无歌声数据的情况下,通过训练文字转语音 (TTS) 数据的模型仍可以合成 TTS 说话者的歌声。
- 文本转歌曲:融合人声和伴奏的可控音乐生成
本研究提出了一个称为文本到歌曲合成的新任务,结合了歌声和伴奏生成。我们开发了一种名为 Melodist 的两阶段文本到歌曲方法,它包括了歌声合成和声乐到伴奏合成。Melodist 利用三塔对比预训练来学习更有效的文本表示,用于可控的声乐到伴 - Interspeech 2024 离散语音单元挑战中的语音处理技术报告
本文介绍了上海交通大学 X-LANCE 小组在 Interspeech 2024 离散语音单元挑战赛的 TTS(声学 + vocoder)、SVS 和 ASR 任务中开发的系统,尤其是在 TTS 任务中,无论是使用整个训练集还是仅 1 小时 - 通过简化的自监督语音表示实现低资源跨领域歌唱声音合成
本文提出了一种仅使用文本和语音数据训练的多说话人声音合成模型 Karaoker-SSL,它是一个低资源流程,不需要使用任何歌唱数据,因为它的声码器也是在语音数据上训练的。通过无监督方式,Karaoker-SSL 通过自监督语音表示对其进行调 - AAAIStyleSinger: 跨领域歌声合成的风格转换
StyleSinger 是首个用于零样本风格转移的领域外参考唱声样本的歌声合成模型,通过采用剩余风格适应器和不确定性建模层标准化的关键方法,它在音频质量和与参考唱声样本的相似性方面优于基线模型。
- BiSinger: 双语歌唱声音合成
设计了一个双语 SVS 系统用于英语和汉语普通话的人声合成,并通过使用 CMU 词典与映射规则实现中文和英语歌声之间的共享表示,融合了单语歌唱数据集和已建立的歌声转换技术来生成双语歌声,并探索了双语语音数据的潜在用途。通过实验证实,我们的语 - SingFake: 唱歌声深度伪造检测
提出了歌声深度伪造检测任务,创建了第一个真实数据集 SingFake,包含 40 位歌手 5 种语言的 28.93 小时真实歌曲和 29.40 小时深度伪造歌曲片段,评估了四个最先进的口语对抗系统,发现在 SingFake 上训练相对于在口 - FSD: 用于假歌曲检测的初始中文数据集
利用中国伪造歌曲检测(FSD)数据集,通过训练音频伪造检测(ADD)模型,实现对歌曲伪造的验证,并发现歌曲专用 ADD 模型在 FSD 测试集中平均等误差率较训练于语音的 ADD 模型降低了约 38.58%。
- 提升歌声合成表达力的方向:基于 BERT 派生语义信息
该研究介绍了一种端到端的高质量歌声合成(SVS)系统,其使用来自 Transformers(BERT)的双向编码器表示衍生的语义嵌入来提高合成歌声的表现力。
- 通过神经音频编解码器和潜在扩散模型实现高质量歌声合成
HiddenSinger 是一个高质量的歌唱声音合成系统,使用神经音频编解码器和潜在扩散模型,解决了模型复杂性和可控性的问题,并在无标签歌声数据集上训练,产生了高品质的歌声合成结果。
- SingGAN:用于高保真唱歌声音生成的生成对抗网络
提出了一种名为 SingGAN 的生成对抗网络,用于高保真度歌声合成,该网络通过提出源激发、全局和局部判别器、辅助频谱损失和子带特征匹配惩罚损失等方法,解决了通过文本合成的神经声码器不能直接应用于合成歌声的问题,该网络不仅具有接近现实的音质 - AAAIDiffSinger:一种浅层扩散机制的歌声合成方法
本文提出了一种基于扩散概率模型的声学模型 DiffSinger,具有较好的稳定性和生成能力,较传统算法在歌唱合成上表现更好。
- KDDDeepSinger:基于网络挖掘数据的歌声合成
本文介绍了 DeepSinger,这是一个从音乐网站中抓取数据训练的多语言、多歌手的歌唱声音合成系统,其特点包括自动化的对齐模型、基于 Transformer 的合成模型以及多语言、多歌手的支持
- XiaoiceSing: 高质量集成歌声合成系统
该论文介绍了 XiaoiceSing,这是一个高质量的歌唱合成系统,它采用集成网络进行频谱、 F0 和持续时间建模。该系统在保留 FastSpeech 的主要框架的同时提出了一些特定于歌唱的设计,通过多种实验验证该系统表现优异。
- 使用深度自回归神经网络进行歌声合成的声学建模
本文提出了使用自回归神经网络对歌声合成进行声学建模的方法,以更好地描述连续帧音频特征之间的依赖关系。实验结果表明,使用自回归模型的方法可以更有效地产生包含颤音的 F0 轮廓,并且可以比使用递归神经网络的传统方法实现更好的客观和主观性能。
- 基于卷积神经网络的歌声合成
本文提出了一种基于卷积神经网络的歌声合成方法,通过建立对唱歌音符特征序列和声学特征序列之间关系的卷积神经网络模型,生成长时序的声学特征序列以去除参数生成算法,主观听感测试结果表明该方法能够产生自然流畅的歌声。