May, 2022

自监督语音模型是否具有类人感知偏见?

TL;DR通过研究 wav2vec 2.0,HuBERT 和 CPC 三种最先进的自监督模型的表示空间,与法语和英语人类听众的感知空间作比较,我们发现 CPC 模型具有微小的母语语言效应,但 wav2vec 2.0 和 HuBERT 似乎发展出了一种通用的语音感知空间,而不是针对特定语言的。与受监督的电话识别器的预测比较表明,所有三种自监督的模型捕获了相对精细的知觉现象,而受监督的模型则更擅长捕获听众母语的更粗的电话级效应。