本文通过提出一种新颖的训练免费的组合 CLIP 模型 (ComCLIP) 来解决复合图像和文本匹配的问题,通过将输入图像分解为主题、对象和动作子图像,并组合 CLIP 的视觉编码器和文本编码器来在组成性文本嵌入和子图像嵌入上执行动态匹配,从而实现了对差异性语义的建模,提高了 CLIP 的零样本推理能力。
Nov, 2022
提出了一种半监督学习方法 S-CLIP,利用额外的非配对图像数据为基于对比学习的语言图像预训练模型 CLIP 训练,采用两个伪标签策略,分别针对对比学习和语言模态,能够显著增强 CLIP 的训练,取得了在遥感、时尚、科学图像和漫画等多个领域中的令人瞩目的表现。
May, 2023
通过使用不同的图像参数化方法,利用生成模型和巧妙设计的蒸馏目标,我们提出了一种轻量级而高效的方法 SDS-CLIP,来改善 CLIP 模型的组合视觉 - 语言推理能力并在多个数据集上显示了显著的性能提升。
Jul, 2023
本文探讨了 CLIP 在合成知识下图像描述的能力,提出了五种计算模型并设计出新的训练算法 CoSI,在属性 - 对象标记任务和空间关系任务中测试了 CLIP 的表现,结果表明虽然 CLIP 在属性 - 对象标记任务中表现良好且能够推广至新的未知属性 - 对象组合,但其无法可靠地绑定特性,对于对象之间的关系无法可靠地学习。
Dec, 2022
利用 OpenAI CLIP 模型中的视觉和文本特征进行任务细化微调,然后通过训练 Combiner 网络来整合双模态信息,并提供用于检索的组合特征,结果表明这种方法在复合图像检索方面优于当前先进方法。
Aug, 2023
本文提出了一种利用 CLIP 模型进行半监督图像标注的方法,包括图像编码器、映射网络和语言模型,通过对比生成的标题和实际标题,并使用未标记的图像进行二次训练,得到了与完整数据集训练的业界最先进模型相比可比的性能,且标题更加独特、信息量更大,并且符合人类的偏好。
Jun, 2023
通过在大量文本图像对上进行自我监督的对比学习,RankCLIP 在扩展 CLIP 的刚性一对一匹配框架的同时,利用模态内和跨模态的排序一致性来提高对齐过程,捕捉每种模态之间和内部的细致的多对多关系,有效提升各种下游任务的性能,尤其在零样本分类方面,显著超越现有方法,突显了 RankCLIP 在进一步推进视觉语言预训练方面的潜力。
Apr, 2024
本文提出了一种用于对医学图像和文本进行训练的的简单而有效的框架 ——MedCLIP,该框架采用了对抗学习和多模式学习,并引入医学知识语义匹配。实验结果表明,MedCLIP 在零样本预测、有监督分类和图像文本检索等方面超过了现有最佳方法。令人惊讶的是,仅使用了 20K 的预训练数据就超过了使用约 200K 数据的现有最佳方法。
Oct, 2022
CLIP 模型是基于文本查询的图像检索的重要进展,通过在大规模数据集上进行训练获得显著的泛化能力,实现了图像和文本的跨模态理解,促进了自然语言理解和计算机视觉的无缝集成,为多媒体应用中的信息检索提供了强大的工具。
Jan, 2024
通过在 CLIP 训练中结合任务特定的视觉模型,利用伪标签来改进其视觉表示,该简单的设置在不妨碍现有性能的前提下,显著提高了不同视觉任务的效果。
Oct, 2023