image-speech retrieval | BriefGPT

关键词image-speech retrieval

搜索结果 - 1

SpeechCLIP：将语音与预训练的视觉和语言模型相融合
本文提出了一种名为 SpeechCLIP 的新框架，通过图像将语音和文本结合起来，从而改善语音模型的性能，无需直接从转录中进行监督。SpeechCLIP 使用先进的预训练 HuBERT 和 CLIP 模型，并通过配对的图像和口头字幕进行对齐
PDF2 years ago