May, 2024

探究语音自监督模型中的 ' 自编码器行为 ': 以 HuBERT 的预训练为重点

TL;DR自我监督学习在语音识别中取得了巨大成功,然而已观察到微调学习模型的所有层相对于重设顶层会导致性能下降,这种现象被归因于 "自编码器" 行为:顶层包含更接近于输入的信息,对于需要语言信息的任务(例如语音识别)不太适用。为了更好地理解这种行为,我们提出从预训练中研究模型内部的高级信息的演变,重点关注表现出较少 "自编码器" 行为的 HuBERT 模型。通过实验探索可能产生影响的各种因素,我们旨在改善训练过程并增强 HuBERT 的顶层以进行高级任务。此外,我们的实验证明这些训练过程的改进导致更快的收敛速度和在下游任务上具有竞争力的性能。