自我监督解开说话人确认中的声音和内容

Oct, 2023

自我监督解开说话人确认中的声音和内容

Disentangling Voice and Content with Self-Supervision for Speaker Recognition

Tianchi Liu, Kong Aik Lee, Qiongqiong Wang, Haizhou Li

TL;DR该研究提出了一种能同时模拟语音中的说话人特征和内容可变性的解缠结构框架，并通过使用三个高斯推理层实现，其中每个层由可学习的转换模型组成，能够提取出独特的语音组成成分。通过在 VoxCeleb 和 SITW 数据集上进行实验证实了该框架的有效性，其表现为等价错误率和最小 DCF 分别降低了 9.56％和 8.24％，而不需要额外的模型训练或数据，因此可以在实际应用中容易使用。

Abstract

For speaker recognition, it is difficult to extract an accurate speaker representation from speech because of its mixture of speaker traits

speaker recognition disentanglement framework speech speaker traits content variability

发现论文，激发创造

使用跨模态自监督进行解缠语音嵌入

本文旨在学习说话者身份的表示，利用自我监督学习目标，在视频中通过面部和音频之间的自然跨模态同步来实现。通过构建一个共享低级特征且提供自然机制来明确区分语言内容和说话者身份的双流架构，从而在大规模的 “野外” 对话者数据集上进行训练，并展示了其对于标准说话者识别性能的良好效果。

Feb, 2020

ContentVec: 通过分解说话人的语音表示来改进自监督语音表示

本文介绍了一种新的自监督学习方法，采用 HuBERT 框架并结合分离机制，能够在不丢失语音信息的前提下实现说话人分离，并在内容相关的下游任务中获得显著的性能提升。

Apr, 2022

自监督解缠结表示学习用于稳健目标语音提取

通过自监督解缠的表示学习方法，该论文提出了一种两阶段的方法，利用参考语音编码网络和全局信息解缠网络逐步解开说话者身份信息与其他无关因素的联系，从而有效地引导语音提取网络并降低说话者混淆的可能性。此外，引入自适应调制 Transformer 以确保混合信号的声学表示不受说话者嵌入的影响，提供自然且高效的指导。实验结果验证了该方法的有效性。

Dec, 2023

基于稳健解缠变分语音表示学习的零样本语音转换

本研究提出利用自监督分离式语音表示学习的新视角进行零样本语音转换，通过在序列变分自编码器中平衡全局说话人表示和时变内容表示之间的信息流实现分离，并应用实时数据增强培训策略以使所学表示不受噪声干扰。在 TIMIT 和 VCTK 数据集上表现出了优越性能，不仅在客观评估上表现良好，而且在主观评估方面具有鲁棒性，即使在源 / 目标语音帧存在噪声的情况下仍能保持不错的性能。

Mar, 2022

使用未标注的外部数据进行对抗性发声人分离的自监督表征语音转换

提出了一种基于声音转换技术的高相似度任意语音转换方法，该方法中使用了自监督学习方法及其提取的 SSL 输入表示，采用对抗训练机制和辅助判别器，通过外部未标注的大型语音语料库，在合成模块中成功解决了与 SSL 表示中的说话者信息与音色相似度有关的限制问题。实验结果表明，我们的方法在自然度高且相似度可比的情况下比监督方法更加灵活，同时可以推广至其他 SSL 表示作为输入的 VC 方法，而且无需大量标注数据的支持。

May, 2023

通过自监督表示增强基于 LLM 的语音生成系统的稳定性

在这项研究中，我们介绍了一种新的自监督语音转换（VC）架构，它可以用来学习将瞬时特征，如内容，与静态特征（如说话者 ID 或录音条件）分开进行编码，从而创建说话者解耦的表示。结果表明，训练过以说话者解耦的自监督表示的 Large Language Models（LLMs）相比于最先进的关联表示提高了 4.7 个百分点的说话者相似度，并降低了 5.4 个百分点的词错误率（WER）。此外，它们在自然性方面比 LibriTTS 测试集中的人类录音表现更好。最后，我们表明使用明确的参考嵌入对可读性（稳定性）产生负面影响，与仅使用文本来推断风格的模型相比，WER 增加了 14 个百分点。

Feb, 2024

基于排序模块和语音增强的自动语音分离转换

本论文提出了一种语音转换模型，通过只使用两个扩充函数，自动将语音分解成四个部分，而不需要多个手工制作的特征或费力的瓶颈调整。所提出的模型简单但高效，并且实验结果表明，我们的模型在解缠效果和语音自然度方面均优于基线。

Jun, 2023

来自离散分离自监督表征的语音再合成

使用自监督离散表示来获取可控的语音合成的解耦表征，以及实现在轻量级语音编解码器中更好的语音质量。

Apr, 2021

自监督学习用于音视频发言人分离

提出自监督的音视频同步学习方法，通过引入动态三元组损失和多项式损失函数来解决说话人分离问题，结果表明该方法在人机交互系统中大幅提高了 F1 分数和降低了分离误差率，并且介绍了一个新的大规模中文音视频语料库。

Feb, 2020

基于对比学习和深度模块化的语音分离

研究使用对比学习建立框架的表示，并使用学到的表示在下游深度模块化任务中，自监督学习以最小化属于给定说话者的框架之间的距离，以进行语音分离。通过 WSJ0-2mix 和 WSJ0-3mix 的评估，该技术的性能不会随着说话者数量的增加而显着降低。

May, 2023