Oct, 2023

HuBERTopic: 通过主题模型自我监督提升 HuBERT 的语义表示

TL;DR我们提出了一种新方法来丰富 HuBERT 的语义表示,通过将主题模型应用于伪标签以为每个话语生成主题标签,并使用主题标签作为教师添加辅助的主题分类任务,以无监督的方式融入额外的全局语义信息。实验证明,我们的方法在大多数任务中实现了与基准方法相当或更好的性能,包括自动语音识别和 8 个超级任务中的 5 个任务。此外,我们发现主题标签包含关于话语的各种信息,如性别、演讲者和主题,凸显了我们方法在捕捉多方面语义细微差别方面的有效性。