EMNLPOct, 2022

透过听力引导语义:口语句子嵌入的无监督学习

TL;DR本研究通过转换语音信号为由声学单元发现生成的隐藏单元并提出了 WavEmbed,一个多模态连续自编码器,用于预测从语音传感器中提取的隐藏单元的密集嵌入,其次通过知识蒸馏提出 S-HuBERT。最佳性能的模型与人类判断之间的相关性中等(0.5~0.6),且无需依赖任何标签或转录,这些模型还可以轻松扩展以利用语音的文本转录来学习更好的嵌入。