基于排序模块和语音增强的自动语音分离转换
本研究提出利用自监督分离式语音表示学习的新视角进行零样本语音转换,通过在序列变分自编码器中平衡全局说话人表示和时变内容表示之间的信息流实现分离,并应用实时数据增强培训策略以使所学表示不受噪声干扰。在 TIMIT 和 VCTK 数据集上表现出了优越性能,不仅在客观评估上表现良好,而且在主观评估方面具有鲁棒性,即使在源 / 目标语音帧存在噪声的情况下仍能保持不错的性能。
Mar, 2022
该研究提出了一种能同时模拟语音中的说话人特征和内容可变性的解缠结构框架,并通过使用三个高斯推理层实现,其中每个层由可学习的转换模型组成,能够提取出独特的语音组成成分。通过在 VoxCeleb 和 SITW 数据集上进行实验证实了该框架的有效性,其表现为等价错误率和最小 DCF 分别降低了 9.56%和 8.24%,而不需要额外的模型训练或数据,因此可以在实际应用中容易使用。
Oct, 2023
本文介绍了 SpeechSplit,一个可以盲目将语音分解为其四个组成部分的算法,以及如何在没有文本标签的情况下分别在语调、音高和节奏上执行风格转换。
Apr, 2020
本文提出通过使用向量量化 (VQ) 进行内容编码,并在训练期间引入互信息 (MI) 作为相关度度量,从而在无监督的情况下实现内容、说话人和音高表示的适当分离,以提高单次语音转换系统的性能。该方法在保留源语言内容和语调变化的同时,捕捉目标说话人的特征,实现了比现有单次语音转换系统更高的语音自然度和说话人相似度。
Jun, 2021
本文介绍了 SpeechSplit 2.0,它通过使用有效的信号处理方法来限制语音组件的信息流,从而实现了特定方面的语音转换和语音分离,相比于 SpeechSplit 在语音分离方面具有更高的稳健性和可靠性。
Mar, 2022
提出了一种基于声音转换技术的高相似度任意语音转换方法,该方法中使用了自监督学习方法及其提取的 SSL 输入表示,采用对抗训练机制和辅助判别器,通过外部未标注的大型语音语料库,在合成模块中成功解决了与 SSL 表示中的说话者信息与音色相似度有关的限制问题。实验结果表明,我们的方法在自然度高且相似度可比的情况下比监督方法更加灵活,同时可以推广至其他 SSL 表示作为输入的 VC 方法,而且无需大量标注数据的支持。
May, 2023
本文介绍了一种新的自监督学习方法,采用 HuBERT 框架并结合分离机制,能够在不丢失语音信息的前提下实现说话人分离,并在内容相关的下游任务中获得显著的性能提升。
Apr, 2022
本篇研究通过变分自编码 Wasserstein 生成对抗网络(VAW-GAN)研究情感音频的解耦和重组,提出一种基于 VAW-GAN 的发言者依赖型情感语音转换框架,包括两个 VAW-GAN 管道,一个用于频谱转换,另一个用于韵律转换,在客观和主观评估中验证了我们提出的方法的有效性。
Nov, 2020
该论文提出了一种基于 VAW-GAN 的非平行语音转换框架,可以用于从未对齐的语音语料库中构建语音转换系统,并展示了该框架的有效性和提升的转换质量。
Apr, 2017