Feb, 2024

将自监督语音模型与基于视觉语音模型的伪词级目标整合

TL;DR我们提出了 Pseudo-Word HuBERT (PW-HuBERT)框架,该框架将伪词级目标集成到训练过程中,这些目标是从视觉引导的语音模型中获取的,明显消除了对语音 - 文本配对数据的需求,在四个口语理解基准测试中,我们的模型在捕捉语义信息方面表现出了优越性。