Oct, 2023

SD-HuBERT:自蒸馏在 HuBERT 中引发音节组织

TL;DR在自监督学习中,通过基于数据的单元发现在语音处理领域迈入了新的阶段。本文展示了在学习语音的句子级表示中出现了音节组织。通过采用 “自蒸馏” 目标函数,在没有任何监督的情况下,对预训练的 HuBERT 进行微调,并添加一个汇总整个句子的聚合器标记。实验结果表明,该模型在语音中画定了明确的边界,并且帧之间的表示显示出显著的音节结构。此外,我们提出了一个用于评估语音句子级表示的新的基准任务,即 “Spoken Speech ABX”。与先前的模型相比,我们的模型在无监督音节发现和学习句子级表示方面表现出色。我们展示了 HuBERT 的自蒸馏能够产生音节组织,而不依赖外部标签或模态,并可能为口语语言建模提供新的、基于数据的单元。