ContentVec: 通过分解说话人的语音表示来改进自监督语音表示
该研究提出了一种能同时模拟语音中的说话人特征和内容可变性的解缠结构框架,并通过使用三个高斯推理层实现,其中每个层由可学习的转换模型组成,能够提取出独特的语音组成成分。通过在 VoxCeleb 和 SITW 数据集上进行实验证实了该框架的有效性,其表现为等价错误率和最小 DCF 分别降低了 9.56%和 8.24%,而不需要额外的模型训练或数据,因此可以在实际应用中容易使用。
Oct, 2023
提出了一种基于声音转换技术的高相似度任意语音转换方法,该方法中使用了自监督学习方法及其提取的 SSL 输入表示,采用对抗训练机制和辅助判别器,通过外部未标注的大型语音语料库,在合成模块中成功解决了与 SSL 表示中的说话者信息与音色相似度有关的限制问题。实验结果表明,我们的方法在自然度高且相似度可比的情况下比监督方法更加灵活,同时可以推广至其他 SSL 表示作为输入的 VC 方法,而且无需大量标注数据的支持。
May, 2023
通过自监督解缠的表示学习方法,该论文提出了一种两阶段的方法,利用参考语音编码网络和全局信息解缠网络逐步解开说话者身份信息与其他无关因素的联系,从而有效地引导语音提取网络并降低说话者混淆的可能性。此外,引入自适应调制 Transformer 以确保混合信号的声学表示不受说话者嵌入的影响,提供自然且高效的指导。实验结果验证了该方法的有效性。
Dec, 2023
本文旨在学习说话者身份的表示,利用自我监督学习目标,在视频中通过面部和音频之间的自然跨模态同步来实现。通过构建一个共享低级特征且提供自然机制来明确区分语言内容和说话者身份的双流架构,从而在大规模的 “野外” 对话者数据集上进行训练,并展示了其对于标准说话者识别性能的良好效果。
Feb, 2020
在这项研究中,我们介绍了一种新的自监督语音转换(VC)架构,它可以用来学习将瞬时特征,如内容,与静态特征(如说话者 ID 或录音条件)分开进行编码,从而创建说话者解耦的表示。结果表明,训练过以说话者解耦的自监督表示的 Large Language Models(LLMs)相比于最先进的关联表示提高了 4.7 个百分点的说话者相似度,并降低了 5.4 个百分点的词错误率(WER)。此外,它们在自然性方面比 LibriTTS 测试集中的人类录音表现更好。最后,我们表明使用明确的参考嵌入对可读性(稳定性)产生负面影响,与仅使用文本来推断风格的模型相比,WER 增加了 14 个百分点。
Feb, 2024
本研究通过使用向量量化技术,加强从声学模型中提取特征时的内容和说话人信息的分离,从而改进说话人匿名化技术,并在 VoicePrivacy 2022 工具包上验证了该方法的有效性。
Aug, 2022
通过聚类方法和因子分析模型,使用自监督学习的特征对 SSL 模型进行有监督微调,可用于说话人、情感和语言识别等级别任务,并提供更具有区分性的音频特征表示,此方法在 SUPERB 基准测试中表现良好。
May, 2023
本研究提出了一种零样本文本转语音模型,使用自监督学习获取的语音表示模型进行条件控制,并引入了声学特征和音素持续时间预测器的分离调制以提高重现性能和语音转换效果。
Apr, 2023
本研究提出利用自监督分离式语音表示学习的新视角进行零样本语音转换,通过在序列变分自编码器中平衡全局说话人表示和时变内容表示之间的信息流实现分离,并应用实时数据增强培训策略以使所学表示不受噪声干扰。在 TIMIT 和 VCTK 数据集上表现出了优越性能,不仅在客观评估上表现良好,而且在主观评估方面具有鲁棒性,即使在源 / 目标语音帧存在噪声的情况下仍能保持不错的性能。
Mar, 2022
本研究构建了一种联合建模的声学表征学习任务,强调去耦合(disentanglement)声音信号的相关和无关部分,然后证明这些理想的、去耦合的方案具有独特的统计性质,并在训练期间强制执行这些性质,使平均 WER 相对提高了 24.5%,这提出了一种新的有效的音频表示的学习方法。
Aug, 2022