BriefGPT.xyz
Ask
alpha
关键词
zero-shot video-text retrieval
搜索结果 - 2
M2-RAAP:一种多模式方法以推进基于适应性预训练的零 - shot 视频文本检索的有效与高效性
我们提出了一种名为 M2-RAAP 的多模态配方,用于推进基于适应性预训练的零 - shot 视频文本检索,具有有效和高效的特点。通过对视频文本预训练中的四个关键步骤进行全面研究,我们总结了这项实证研究成果,其中我们的技术贡献包括数据过滤和
→
PDF
5 months ago
ICLR
语言绑定:通过基于语言的语义对齐将视频 - 语言预训练扩展到 N - 模态
我们提出了一种称为 LanguageBind 的方法,通过冻结 VL 预训练得到的语言编码器,然后使用对比学习训练其他多模态编码器,实现多模态语义对齐,同时我们还提出了 VIDAL-10M 数据集用于此目的,经过在该数据集上的预训练,我们在
→
PDF
9 months ago
Prev
Next