Nov, 2022

利用自监督语音模型进行音素分割

TL;DR应用迁移学习到音素分割任务中,在自监督预训练中学习的表示对任务的效用得到证明。通过在 Transformer 风格编码器中增加有策略的卷积,操作预训练中学到的特征。在 TIMIT 和 Buckeye 语料库上训练和测试了该模型,分别在监督和非监督设置下达到了以前的最佳性能。在代码审查和尝试复现过去的分割结果中观察到,有必要明确广泛使用的评估指标的定义和实现。通过划分两种不同的评估方案并描述它们的细微差别来解决了这种不确定性。