Oct, 2022

SpeechCLIP:将语音与预训练的视觉和语言模型相融合

TL;DR本文提出了一种名为 SpeechCLIP 的新框架,通过图像将语音和文本结合起来,从而改善语音模型的性能,无需直接从转录中进行监督。SpeechCLIP 使用先进的预训练 HuBERT 和 CLIP 模型,并通过配对的图像和口头字幕进行对齐,实现了零样本语音 - 文本检索和语音中关联关键字的提取。