Feb, 2024
SpeechCLIP+: 自我监督多任务表示学习:用于语音的 CLIP 和语音 - 图像数据
SpeechCLIP+: Self-supervised multi-task representation learning for speech via CLIP and speech-image data
Hsuan-Fu Wang, Yi-Jen Shih, Heng-Jui Chang, Layne Berry, Puyuan Peng...
TL;DR通过替换固定数量的 CLS 令牌,基于 Continuous Integrate-and-Fire 模块的级联 SpeechCLIP 模型在语音关键词提取任务中优于之前的级联 SpeechCLIP 模型。此外,通过混合架构,级联任务学习提升了图像 - 语音检索任务中并行分支的性能。