Jun, 2023

自我监督的语音模型对单词的了解程度如何?

TL;DR本研究发现,不同的自监督语音模型可以在不同的层次编码语言特征,在中间层最大程度地捕获了词级的信息,同时在较高层保留了发音等低层次信息,并用在无额外参数的情况下测试了这些模型的层次表现,同时发现使用 HuBERT 或 WavLM 的最佳表现层可以实现与更复杂的方法相媲美的词分割和语义句子相似性的表现。