Feb, 2024

SpeechCLIP+: 自我监督多任务表示学习:用于语音的 CLIP 和语音 - 图像数据

TL;DR通过替换固定数量的 CLS 令牌,基于 Continuous Integrate-and-Fire 模块的级联 SpeechCLIP 模型在语音关键词提取任务中优于之前的级联 SpeechCLIP 模型。此外,通过混合架构,级联任务学习提升了图像 - 语音检索任务中并行分支的性能。