Jan, 2024

改进特征的语音分割和词库学习再探

TL;DR我们重新审视了一种自我监督的方法,将未标记的语音分割成类似词的段落。我们从两阶段的惩罚持续时间的动态规划方法开始,进行零资源分割,而无需学习明确的词汇表。在第一阶段的声学单元发现阶段,我们用 HuBERT 替换对比预测编码特征。在第二阶段的词语分割之后,我们通过平均 HuBERT 特征获得每个段落的声学词嵌入。使用 K-means 对这些嵌入进行聚类,以获得一个词汇表。结果是具有良好覆盖率的分割,其词汇表在 ZeroSpeech 基准测试中达到了最先进的性能。