BiSinger: 双语歌唱声音合成

Sep, 2023

BiSinger: Bilingual Singing Voice Synthesis

Huali Zhou, Yueqian Lin, Yao Shi, Peng Sun, Ming Li

TL;DR设计了一个双语 SVS 系统用于英语和汉语普通话的人声合成，并通过使用 CMU 词典与映射规则实现中文和英语歌声之间的共享表示，融合了单语歌唱数据集和已建立的歌声转换技术来生成双语歌声，并探索了双语语音数据的潜在用途。通过实验证实，我们的语言独立表示和相关数据集的融合使得单一模型在英语和 code-switch SVS 中获得了强化的性能，同时保持了中文歌曲的表现。

Abstract

Although singing voice synthesis (svs) has made great strides with Text-to-Speech (TTS) techniques, multilingual singing voice modeling remains relatively unexplored. This paper presents BiSinger, a bilingual

singing voice synthesis svs bilingual svs system code-switch svs shared representation

发现论文，激发创造

WeSinger: 使用辅助损失函数的数据扩增歌声合成

本文介绍了一种新型的多歌手中文神经唱歌声合成系统 WeSinger，它采用了 24 kHz LPCNet 和多歌手预训练，通过定制的模块和技术大幅提高了合成歌声的准确性和自然度。该系统在公共中文唱歌语料库 Opencpop 上取得了最先进的性能表现。

Mar, 2022

DeepSinger：基于网络挖掘数据的歌声合成

本文介绍了 DeepSinger，这是一个从音乐网站中抓取数据训练的多语言、多歌手的歌唱声音合成系统，其特点包括自动化的对齐模型、基于 Transformer 的合成模型以及多语言、多歌手的支持

Jul, 2020

ByteSing：一种使用时序分配编码器 - 解码器声学模型和 WaveRNN 声码器的中文歌唱声音合成系统

本文介绍了 ByteSing—— 一种基于 Tacotron 的音频模型和 WaveRNN 神经合成声音模块实现的中文歌声合成系统，实验证明其可生成高保真，自然且富有表现力的歌曲。

Apr, 2020

提升歌声合成表达力的方向：基于 BERT 派生语义信息

该研究介绍了一种端到端的高质量歌声合成（SVS）系统，其使用来自 Transformers（BERT）的双向编码器表示衍生的语义嵌入来提高合成歌声的表现力。

Aug, 2023

MakeSinger: 一种用于数据高效的半监督训练方法的歌声合成，通过无分类器扩散引导

通过无分类器扩散引导的 MakeSinger 半监督训练方法，提高合成的歌声质量，并展示即使在无歌声数据的情况下，通过训练文字转语音 (TTS) 数据的模型仍可以合成 TTS 说话者的歌声。

Jun, 2024

促进的歌唱声音合成：通过自然语言提示实现可控

提供了一种新的歌声合成方法 Prompt-Singer，使得合成歌声能够通过自然语言明确地控制歌手的性别、音域和音量，并使用基于解码器的 transformer 模型和多尺度层次结构设计了分离音域旋律的音高表示方法以保持旋律准确性，同时，对不同类型的文本表示、文本编码器微调和引入语音数据以减轻数据稀缺问题等不同实验设置进行了探索，旨在促进进一步的研究，实验证明该模型具有良好的控制能力和音频质量。

Mar, 2024

PolyVoice: 语言模型用于语音翻译

我们提出了 PolyVoice，这是一个基于语言模型的语音 - 语音翻译（S2ST）系统，利用离散化语音单元实现对未书写语言的翻译。在语音合成方面，我们采用现有的 VALL-E X 方法构建基于单元的音频语言模型来保留原始语音的音色特征和语音风格。实验结果表明，我们的系统可以生成高质量翻译和音频质量的语音。

Jun, 2023

DiffSinger：一种浅层扩散机制的歌声合成方法

本文提出了一种基于扩散概率模型的声学模型 DiffSinger，具有较好的稳定性和生成能力，较传统算法在歌唱合成上表现更好。

May, 2021

N-Singer：一种非自回归式韩语歌声合成系统，用于发音增强

本文提出一种名为 N-Singer 的韩语歌声合成系统，通过用 Transformer-based mel-generator、卷积网络 - based postnet 和声音感知判别器来分别建模语言和音高信息以实现更准确的韩语发音和改善谱图。

Jun, 2021

利用大规模语音和歌唱数据进行声音转换模型的比较研究：针对 2023 年歌声转换挑战的 T13 系统

本文介绍了我们的 T13 系统，用于 2023 年的歌声转换挑战赛（SVCC）。我们采用基于自监督学习的识别与合成方法，针对领域内和跨域的英语歌声转换任务，通过有限的目标歌手 / 说话人数据进行数据高效的歌声转换。我们的 T13 系统在 SVCC 2023 的大规模听测试中表现出色，尤其在难度更高的跨域歌声转换任务中获得了极好的自然度和说话人相似度，验证了我们提出方法的广义泛化能力。我们的客观评估结果显示，对于跨域歌声转换，使用大规模数据集尤为有益。

Oct, 2023