利用预训练的自监督前端实现自动唱歌声音理解任务:三个案例研究
本研究通过 Voxceleb-1 数据集进行了一系列实验来探究自监督学习在演讲者相关任务中表现良好的因素,结果表明模型的收益来源于语音预测损失、数据规模和模型大小的组合,同时自监督量化器的影响较小。我们进一步采用了集成梯度属性方法和损失函数可视化的方法来理解自监督学习对演说者识别性能的有效性。
Apr, 2022
我们提出了一个框架,通过在大量的孤立音轨上应用不同的自监督学习技术以及数据增强,训练歌手身份编码器以提取适用于各种歌唱相关任务(如歌声相似性和合成)的表示,我们评估了产生的表示在多个数据集上进行歌手相似性和识别任务,并重点关注领域外泛化,我们的框架在 44.1 kHz 下产生高质量的嵌入,优于说话人验证和 wav2vec 2.0 预训练基线,在歌唱声音上,并发布了我们的代码和训练模型,以促进对歌唱声音和相关领域的进一步研究。
Jan, 2024
自我监督学习在发音验证中表现出与有监督系统相近的性能,本研究通过对预训练的 WavLM 进行自我监督有监督微调并使用伪标签,实现了语音表示学习中的有监督性能,取得了 0.99%的 EER,接近有监督基线 0.94%的 EER。
Jun, 2024
本文研究了在低资源环境下建立自动语音识别(ASR)系统的方法,发现自我监督学习预训练数据的相似性和数量对系统性能有显著影响,希望为语音领域改进 SSL-based 预训练模型的泛化性能提供指导。
Mar, 2022
本文研究应用自监督学习和多任务学习方法预训练音乐编码器,探索编码器结构、损失权重和自监督任务选择对下游音乐分类任务的影响。研究发现,使用多种音乐特定的自监督任务,结合合理的损失权重平衡,可以提高和推广到下游任务。
Feb, 2021
本文讨论了如何利用未经筛选的音频数据进行自监督学习,在数据预处理到部署流式混合语音识别模型的整个过程中研究了多种不同的预训练策略,比较了近期开发的对比损失,并通过实验结果表明,利用领域内未筛选数据进行自监督学习的表现比领域外其他预训练策略要好。
May, 2022
本文提出了一种仅使用文本和语音数据训练的多说话人声音合成模型 Karaoker-SSL,它是一个低资源流程,不需要使用任何歌唱数据,因为它的声码器也是在语音数据上训练的。通过无监督方式,Karaoker-SSL 通过自监督语音表示对其进行调节。为了在训练过程中间接指导条件模块捕捉风格信息,使用了一个基于 Conformer 的模块,该模块从声学模型的输出中预测音高。因此,Karaoker-SSL 允许进行歌声合成而不依赖于手工制作的专门领域特征。此外,它不需要文本对齐或歌词时间戳。为了改善声音质量,我们采用了一个以目标说话人为条件的 U-Net 鉴别器,并采用了 Diffusion GAN 训练方案。
Feb, 2024