BiSinger: 双语歌唱声音合成
本文介绍了一种新型的多歌手中文神经唱歌声合成系统 WeSinger,它采用了 24 kHz LPCNet 和多歌手预训练,通过定制的模块和技术大幅提高了合成歌声的准确性和自然度。该系统在公共中文唱歌语料库 Opencpop 上取得了最先进的性能表现。
Mar, 2022
本文介绍了 DeepSinger,这是一个从音乐网站中抓取数据训练的多语言、多歌手的歌唱声音合成系统,其特点包括自动化的对齐模型、基于 Transformer 的合成模型以及多语言、多歌手的支持
Jul, 2020
本文介绍了 ByteSing—— 一种基于 Tacotron 的音频模型和 WaveRNN 神经合成声音模块实现的中文歌声合成系统,实验证明其可生成高保真,自然且富有表现力的歌曲。
Apr, 2020
该研究介绍了一种端到端的高质量歌声合成(SVS)系统,其使用来自 Transformers(BERT)的双向编码器表示衍生的语义嵌入来提高合成歌声的表现力。
Aug, 2023
通过无分类器扩散引导的 MakeSinger 半监督训练方法,提高合成的歌声质量,并展示即使在无歌声数据的情况下,通过训练文字转语音 (TTS) 数据的模型仍可以合成 TTS 说话者的歌声。
Jun, 2024
提供了一种新的歌声合成方法 Prompt-Singer,使得合成歌声能够通过自然语言明确地控制歌手的性别、音域和音量,并使用基于解码器的 transformer 模型和多尺度层次结构设计了分离音域旋律的音高表示方法以保持旋律准确性,同时,对不同类型的文本表示、文本编码器微调和引入语音数据以减轻数据稀缺问题等不同实验设置进行了探索,旨在促进进一步的研究,实验证明该模型具有良好的控制能力和音频质量。
Mar, 2024
我们提出了 PolyVoice,这是一个基于语言模型的语音 - 语音翻译(S2ST)系统,利用离散化语音单元实现对未书写语言的翻译。在语音合成方面,我们采用现有的 VALL-E X 方法构建基于单元的音频语言模型来保留原始语音的音色特征和语音风格。实验结果表明,我们的系统可以生成高质量翻译和音频质量的语音。
Jun, 2023
本文提出一种名为 N-Singer 的韩语歌声合成系统,通过用 Transformer-based mel-generator、卷积网络 - based postnet 和声音感知判别器来分别建模语言和音高信息以实现更准确的韩语发音和改善谱图。
Jun, 2021
本文介绍了我们的 T13 系统,用于 2023 年的歌声转换挑战赛(SVCC)。我们采用基于自监督学习的识别与合成方法,针对领域内和跨域的英语歌声转换任务,通过有限的目标歌手 / 说话人数据进行数据高效的歌声转换。我们的 T13 系统在 SVCC 2023 的大规模听测试中表现出色,尤其在难度更高的跨域歌声转换任务中获得了极好的自然度和说话人相似度,验证了我们提出方法的广义泛化能力。我们的客观评估结果显示,对于跨域歌声转换,使用大规模数据集尤为有益。
Oct, 2023