在这项研究中,我们介绍了一种新的自监督语音转换(VC)架构,它可以用来学习将瞬时特征,如内容,与静态特征(如说话者 ID 或录音条件)分开进行编码,从而创建说话者解耦的表示。结果表明,训练过以说话者解耦的自监督表示的 Large Language Models(LLMs)相比于最先进的关联表示提高了 4.7 个百分点的说话者相似度,并降低了 5.4 个百分点的词错误率(WER)。此外,它们在自然性方面比 LibriTTS 测试集中的人类录音表现更好。最后,我们表明使用明确的参考嵌入对可读性(稳定性)产生负面影响,与仅使用文本来推断风格的模型相比,WER 增加了 14 个百分点。