Jun, 2020

一种卷积深度马尔可夫模型用于无监督语音表征学习

TL;DR本文提出了 ConvDMM,这是一种使用非线性发射和转移函数模型的高斯状态空间模型,并使用深度卷积神经网络作为结构变分近似的推理网络的无监督模型。当在大规模语音数据集上进行训练时,ConvDMM 产生的特征在线性电话分类和在 WSJ 数据集上的识别方面显着优于多个自我监督的特征提取方法,并且可以与 Wav2Vec 和 PASE 等自我监督的方法相辅相成,进一步提高了结果。最后,我们发现,在少量标记训练示例的极低资源之下,ConvDMM 功能使得学习更好的电话识别器比任何其他功能。