Dec, 2020

自监督语音表示作为无监督声学单词嵌入输入特征的比较

TL;DR本文研究了零资源语音处理中基于帧级特征的声学词嵌入模型,发现使用自监督预测编码和对应自编码器模型等代替传统的 MFCC 作为输入,可以在英语和 Xitsonga 数据的单词辨别任务中取得更好的效果,并且能跨语种使用。