关键词zero-shot image-text retrieval
搜索结果 - 2
- 多路适配器:为可扩展的图像 - 文本检索适应大规模多模态模型
通过引入 Multiway-Adapter 框架和 'Alignment Enhancer' 来深化多模态对齐,我们提出了一种高效的适应路径,使得大型多模态模型具备高度的可迁移性,同时实现了 57% 的微调时间缩减,并在零样本图像 - 文本 - ICCV对比特征遮罩开放词汇视觉变换器
CFM-ViT 是一种图像 - 文本预训练方法,具有对开放词汇目标检测进行图像和区域级别表示的同时学习能力。通过将掩码自编码器(MAE)目标与对比学习目标相结合,CFM-ViT 在联合图像 - 文本嵌入空间中进行重构,以比传统的 MAE 方