DeepSinger:基于网络挖掘数据的歌声合成
本文介绍了一种新型的多歌手中文神经唱歌声合成系统 WeSinger,它采用了 24 kHz LPCNet 和多歌手预训练,通过定制的模块和技术大幅提高了合成歌声的准确性和自然度。该系统在公共中文唱歌语料库 Opencpop 上取得了最先进的性能表现。
Mar, 2022
通过无分类器扩散引导的 MakeSinger 半监督训练方法,提高合成的歌声质量,并展示即使在无歌声数据的情况下,通过训练文字转语音 (TTS) 数据的模型仍可以合成 TTS 说话者的歌声。
Jun, 2024
设计了一个双语 SVS 系统用于英语和汉语普通话的人声合成,并通过使用 CMU 词典与映射规则实现中文和英语歌声之间的共享表示,融合了单语歌唱数据集和已建立的歌声转换技术来生成双语歌声,并探索了双语语音数据的潜在用途。通过实验证实,我们的语言独立表示和相关数据集的融合使得单一模型在英语和 code-switch SVS 中获得了强化的性能,同时保持了中文歌曲的表现。
Sep, 2023
提出了歌声深度伪造检测任务,创建了第一个真实数据集 SingFake,包含 40 位歌手 5 种语言的 28.93 小时真实歌曲和 29.40 小时深度伪造歌曲片段,评估了四个最先进的口语对抗系统,发现在 SingFake 上训练相对于在口语测试数据上训练有显著改进,但也提出了未知歌手、通信编解码器、语言和音乐背景等挑战。
Sep, 2023
本文提出了一种高质量的歌唱合成器,它能够在有限的可用录音基础上模拟出一种声音,采用序列到序列的歌唱模型,并设计了一个多歌手框架来利用不同歌手的现有歌唱数据,以减轻歌唱评分不平衡的问题。此外,为了使编码器输出与歌手无关,我们加入了一个对抗性任务来保证模型的平衡性及多随机窗口鉴别器(MRWDs)以使网络成为 GAN。客观和主观的评估表明,所提出的合成器比基准测试能够产生更高质量的歌唱声音(MOS 值分别为 4.12 和 3.53)。特别是高音元音的表达得到了显著改善。
Jun, 2020
该研究介绍了一种端到端的高质量歌声合成(SVS)系统,其使用来自 Transformers(BERT)的双向编码器表示衍生的语义嵌入来提高合成歌声的表现力。
Aug, 2023
本文提出一种名为 N-Singer 的韩语歌声合成系统,通过用 Transformer-based mel-generator、卷积网络 - based postnet 和声音感知判别器来分别建模语言和音高信息以实现更准确的韩语发音和改善谱图。
Jun, 2021
该论文提出了一种基于深度学习的歌唱声音转换方法,该方法不需要以文本或音符为条件,并可直接将一个歌手的音频转换为另一个歌手的声音。通过使用单个 CNN 编码器和一个分类器来进行训练和模型改进,每个歌手都表示为一个嵌入式向量,以便检测其独特的音乐特征。通过使用数据增强技术以及新的训练损失和基于后转换的协议,该方法在较小的数据集上取得了良好的效果。
Apr, 2019
提供了一种新的歌声合成方法 Prompt-Singer,使得合成歌声能够通过自然语言明确地控制歌手的性别、音域和音量,并使用基于解码器的 transformer 模型和多尺度层次结构设计了分离音域旋律的音高表示方法以保持旋律准确性,同时,对不同类型的文本表示、文本编码器微调和引入语音数据以减轻数据稀缺问题等不同实验设置进行了探索,旨在促进进一步的研究,实验证明该模型具有良好的控制能力和音频质量。
Mar, 2024