Oct, 2023

利用类内相关正则化学习可重复的语音嵌入

TL;DR使用机器学习任务的有好的监督嵌入仅对所感兴趣的标签的变化敏感,并对其他混淆因素保持不变。我们利用测量理论中的重复性概念来描述这个属性,并建议使用类内相关系数 (ICC) 评估嵌入的重复性。然后,我们提出了一种新颖的正则化器,即 ICC 正则化器,作为对比损失的补充组件,引导深度神经网络产生更高重复性的嵌入。我们使用模拟数据解释了为什么 ICC 正则化器在最小化类内方差方面比单独使用对比损失更有效。我们实现了 ICC 正则化器,并将其应用于三个语音任务:说话人验证、声音风格转换和检测语音发音异常的临床应用。实验结果表明,添加 ICC 正则化器可以提高学习嵌入的重复性,与仅使用对比损失相比;此外,这些嵌入还可以提升这些下游任务的性能。