HiCLIP: 基于分层感知注意力的对比语言 - 图像预训练
通过在大量文本图像对上进行自我监督的对比学习,RankCLIP 在扩展 CLIP 的刚性一对一匹配框架的同时,利用模态内和跨模态的排序一致性来提高对齐过程,捕捉每种模态之间和内部的细致的多对多关系,有效提升各种下游任务的性能,尤其在零样本分类方面,显著超越现有方法,突显了 RankCLIP 在进一步推进视觉语言预训练方面的潜力。
Apr, 2024
PyramidCLIP 通过分层语义对齐和数据集扩充可以提高图像与文本匹配任务中的性能,并在不同的数据集上取得了极具竞争力的结果。
Apr, 2022
本文介绍了一种用于训练轻量级 CLIP 模型的多级交互范式,包括改进的全局实例级对齐目标、基于放松二分匹配的令牌级对齐目标以及使用遮蔽语言建模的额外目标。实验结果表明,该方法在多个下游任务中实现了更高的性能。
Dec, 2023
本文提出 CLIP-benchmark,对 CLIP 及其变种进行评估、分析和基准测试,并发现了数据、监督和模型架构三个关键因素对性能的影响及应用更恰当的监督可以有效提高 CLIP 性能。
Mar, 2022
通过在 CLIP 训练中结合任务特定的视觉模型,利用伪标签来改进其视觉表示,该简单的设置在不妨碍现有性能的前提下,显著提高了不同视觉任务的效果。
Oct, 2023
CLIP 模型是基于文本查询的图像检索的重要进展,通过在大规模数据集上进行训练获得显著的泛化能力,实现了图像和文本的跨模态理解,促进了自然语言理解和计算机视觉的无缝集成,为多媒体应用中的信息检索提供了强大的工具。
Jan, 2024
提出一种名为 VT-CLIP 的方法来增强 CLIP 模型,它通过可视化引导文本,使文本的特征更适应图片,在多分类任务中表现出很高的效果。
Dec, 2021
通过对 Contrastive Language-Image Pre-training (CLIP) 在医学成像领域中的深入探索,本综述论文旨在为医学图像分析领域的研究人员提供对 CLIP 范式及其潜在影响的整体理解。
Dec, 2023
研究了在视觉与语言任务中使用大规模预训练模型 CLIP 作为视觉编码器以及其优势,通过在特定任务中微调和在预训练模型中与 V&L 相结合传递到下游任务,CLIP 显著优于现有的视觉编码器,并在多种视觉与语言任务中取得竞争或更好的结果,同时取得了 Visual Question Answering,Visual Entailment 和 V&L Navigation 等任务的新高峰。
Jul, 2021
本文提出了一种利用 CLIP 模型进行半监督图像标注的方法,包括图像编码器、映射网络和语言模型,通过对比生成的标题和实际标题,并使用未标记的图像进行二次训练,得到了与完整数据集训练的业界最先进模型相比可比的性能,且标题更加独特、信息量更大,并且符合人类的偏好。
Jun, 2023