关键词image-text pretraining
搜索结果 - 3
- SILC:用自我蒸馏提升视觉语言预训练
基于对 CLIP 模型的改进,本研究提出了 SILC 方法,通过引入本地到全局对应学习来预训练模型,有效提升了计算机视觉领域中的分类、检索和分割等任务的性能,取得了零样本分类、少样本分类、图像与文本检索、无样本分割以及开放词汇分割等方面的最 - 面向检测的图像 - 文本预训练的开放词汇测量
基于检测导向的图像 - 文本预训练的新的开放词汇检测方法用于填补图像级预训练和开放词汇对象检测之间的差距,通过使探测器头从嘈杂的图像 - 文本对中学习,我们的方法能够利用对比损失学习到新出现的对象 - 语义线索,在 LVIS 和 COCO - ICCV对比特征遮罩开放词汇视觉变换器
CFM-ViT 是一种图像 - 文本预训练方法,具有对开放词汇目标检测进行图像和区域级别表示的同时学习能力。通过将掩码自编码器(MAE)目标与对比学习目标相结合,CFM-ViT 在联合图像 - 文本嵌入空间中进行重构,以比传统的 MAE 方