Jun, 2024

自监督语音表示中说话人和语音信息的正交性和等向性

TL;DR自我监督语音表示对下游语音技术有很大的益处,但其有用性的属性仍然了解甚少。本文引入了一种新的度量方法,即累积残差方差(CRV),用于评估表示空间的两个候选属性:讲话者质心和音素质心所跨越子空间的正交程度,以及空间的各个维度有效利用程度。我们使用线性分类器对六个不同的自我监督模型和两个未经训练的基准模型的语音表示进行了评估,探讨正交性和各向同性是否与线性测试精度相关。研究发现这两个度量与语音测试精度呈正相关,尽管对于各向同性的结果更为微妙。