BriefGPT.xyz
大模型
Ask
alpha
关键词
image-speech retrieval
搜索结果 - 1
SpeechCLIP:将语音与预训练的视觉和语言模型相融合
本文提出了一种名为 SpeechCLIP 的新框架,通过图像将语音和文本结合起来,从而改善语音模型的性能,无需直接从转录中进行监督。SpeechCLIP 使用先进的预训练 HuBERT 和 CLIP 模型,并通过配对的图像和口头字幕进行对齐
→
PDF
2 years ago
Prev
Next