BriefGPT.xyz
大模型
Ask
alpha
关键词
multi-modal contrastive pre-training
搜索结果 - 2
ECCV
从共享对比语言图像预训练中学习视觉表征
本篇研究探讨使用 transformer 模型进行多模态对比预训练的方法,发现优于原始的 CLIP 方法,并且支持参数量的降低,通过共享参数,实现了不同模态之间的信息交互和相近语义结构的转移。
PDF
2 years ago
MM
X-CLIP: 视频文本检索的端到端多粒度对比学习
本篇论文提出了一种名为 X-CLIP 的多层次对比模型,通过 Attention Over Similarity Matrix 模块将多粒度相似度矩阵聚合到实例级别,大幅度提高了视频 - 文本检索的性能表现。在五个常用的视频文本检索数据集上
→
PDF
2 years ago
Prev
Next