通过简化的自监督语音表示实现低资源跨领域歌唱声音合成

Feb, 2024

通过简化的自监督语音表示实现低资源跨领域歌唱声音合成

Low-Resource Cross-Domain Singing Voice Synthesis via Reduced Self-Supervised Speech Representations

Panos Kakoulidis, Nikolaos Ellinas, Georgios Vamvoukakis, Myrsini Christidou, Alexandra Vioni...

TL;DR本文提出了一种仅使用文本和语音数据训练的多说话人声音合成模型 Karaoker-SSL，它是一个低资源流程，不需要使用任何歌唱数据，因为它的声码器也是在语音数据上训练的。通过无监督方式，Karaoker-SSL 通过自监督语音表示对其进行调节。为了在训练过程中间接指导条件模块捕捉风格信息，使用了一个基于 Conformer 的模块，该模块从声学模型的输出中预测音高。因此，Karaoker-SSL 允许进行歌声合成而不依赖于手工制作的专门领域特征。此外，它不需要文本对齐或歌词时间戳。为了改善声音质量，我们采用了一个以目标说话人为条件的 U-Net 鉴别器，并采用了 Diffusion GAN 训练方案。

Abstract

In this paper, we propose a singing voice synthesis model, karaoker-ssl, that is trained only on text and speech data as a typical multi-speaker acoustic model. It is a low-resource pipeline that does not utilize

singing voice synthesis karaoker-ssl multi-speaker acoustic model self-supervised speech representations conformer-based module

发现论文，激发创造

利用预训练的自监督前端实现自动唱歌声音理解任务：三个案例研究

本文探讨了无监督自学习模型在歌唱声音识别中的有效性和表现，并对其实验结果和行为进行了分析。

Jun, 2023

无监督跨域歌声转换

本文提出了一种无需手动监督的端对端 wav 到 wav 生成模型，用于实现任意身份的歌声转换，该模型利用音响模型和提取的旋律特征来驱动基于波形的生成器，经实验证明，在音频质量方面表现显著优于基线方法。

Aug, 2020

使用自监督语音表示模型进行零样本文本转语音合成

本研究提出了一种零样本文本转语音模型，使用自监督学习获取的语音表示模型进行条件控制，并引入了声学特征和音素持续时间预测器的分离调制以提高重现性能和语音转换效果。

Apr, 2023

使用自监督技术学习歌手身份表示

我们提出了一个框架，通过在大量的孤立音轨上应用不同的自监督学习技术以及数据增强，训练歌手身份编码器以提取适用于各种歌唱相关任务（如歌声相似性和合成）的表示，我们评估了产生的表示在多个数据集上进行歌手相似性和识别任务，并重点关注领域外泛化，我们的框架在 44.1 kHz 下产生高质量的嵌入，优于说话人验证和 wav2vec 2.0 预训练基线，在歌唱声音上，并发布了我们的代码和训练模型，以促进对歌唱声音和相关领域的进一步研究。

Jan, 2024

无监督唱声转换

该论文提出了一种基于深度学习的歌唱声音转换方法，该方法不需要以文本或音符为条件，并可直接将一个歌手的音频转换为另一个歌手的声音。通过使用单个 CNN 编码器和一个分类器来进行训练和模型改进，每个歌手都表示为一个嵌入式向量，以便检测其独特的音乐特征。通过使用数据增强技术以及新的训练损失和基于后转换的协议，该方法在较小的数据集上取得了良好的效果。

Apr, 2019

SPA-SVC：自我监督的歌声转换中的音高增强

在这篇论文中，我们提出了一种自监督的 SPA-SVC 方法，该方法可以改善 SVC 任务中的声音质量，无需额外的数据或增加模型参数。我们通过引入循环音高转换训练策略和结构相似性指数（SSIM）损失，有效提升了 SVC 模型的性能，实验结果表明我们的方法在一般的 SVC 场景和跨域 SVC 场景中都显著提高了模型性能。

Jun, 2024

对抗训练的端到端朝鲜语歌声合成系统

本文提出了一种从歌词和符号旋律生成端到端的韩国歌唱声音合成系统，包括三种新颖方法：1）语音增强掩蔽，2）文本和音高的本地条件对超分辨率网络，3）条件对抗训练。该系统包括两个主要模块：从给定的输入信息生成 mel-spectrogram 的 mel-synthesis 网络和将生成的 mel-spectrogram 上采样成 linear-spectrogram 的超分辨率网络。在 mel-synthesis 网络中，应用语音增强掩蔽仅从输入文本生成隐式谐振峰掩蔽，这使得歌唱声音的语音控制更加准确。此外，本文还表明了本地文本和音高和条件对抗训练是超分辨率过程中生成真实人类歌声的关键。最后，通过定量和定性评估，证实了所有提出方法的有效性。

Aug, 2019

通过合成进行语音增强的自监督学习

本文提出了一种基于去噪声码器的语音增强方法，利用自监督学习获取语音的相关特征，并采用最佳的自监督学习配置，采用对抗训练方式进行声音去噪，最终实现了一种具备实时能力、优化了客观指标并超越了当前最先进的语音增强模型的方案。

Nov, 2022

使用未标注的外部数据进行对抗性发声人分离的自监督表征语音转换

提出了一种基于声音转换技术的高相似度任意语音转换方法，该方法中使用了自监督学习方法及其提取的 SSL 输入表示，采用对抗训练机制和辅助判别器，通过外部未标注的大型语音语料库，在合成模块中成功解决了与 SSL 表示中的说话者信息与音色相似度有关的限制问题。实验结果表明，我们的方法在自然度高且相似度可比的情况下比监督方法更加灵活，同时可以推广至其他 SSL 表示作为输入的 VC 方法，而且无需大量标注数据的支持。

May, 2023

利用大规模 ASR 模型，在自监督学习中追求说话者验证的有监督性能

自我监督学习在发音验证中表现出与有监督系统相近的性能，本研究通过对预训练的 WavLM 进行自我监督有监督微调并使用伪标签，实现了语音表示学习中的有监督性能，取得了 0.99％的 EER，接近有监督基线 0.94％的 EER。

Jun, 2024