Feb, 2024
将自监督语音模型与基于视觉语音模型的伪词级目标整合
Integrating Self-supervised Speech Model with Pseudo Word-level Targets from Visually-grounded Speech Model
Hung-Chieh Fang, Nai-Xuan Ye, Yi-Jen Shih, Puyuan Peng, Hsuan-Fu Wang...
TL;DR我们提出了 Pseudo-Word HuBERT (PW-HuBERT)框架,该框架将伪词级目标集成到训练过程中,这些目标是从视觉引导的语音模型中获取的,明显消除了对语音 - 文本配对数据的需求,在四个口语理解基准测试中,我们的模型在捕捉语义信息方面表现出了优越性。