AAAIDec, 2023

自监督解缠结表示学习用于稳健目标语音提取

TL;DR通过自监督解缠的表示学习方法,该论文提出了一种两阶段的方法,利用参考语音编码网络和全局信息解缠网络逐步解开说话者身份信息与其他无关因素的联系,从而有效地引导语音提取网络并降低说话者混淆的可能性。此外,引入自适应调制 Transformer 以确保混合信号的声学表示不受说话者嵌入的影响,提供自然且高效的指导。实验结果验证了该方法的有效性。