Jan, 2023

分析用于口语语言模型的离散自监督语音表示

TL;DR本文通过生成式语言模型的视角深入分析离散自监督语音表示(单元),并提出了对于该模型单元的实用改进方法。其分析发现语音单元与音素和音素族之间存在较高的相关性,且与说话人或性别的相关性较弱。此外,该研究发现单元提取中存在冗余性,并提出了一种新的无监督测量单元冗余的方法。最后,研究使用此度量标准开发了新的方法,用于改进单元的聚类鲁棒性并在零资源语音测量方法(例如 ABX)方面表现出显着的改进。