ComCLIP: 无须训练的图文组合匹配
本文探讨了 CLIP 在合成知识下图像描述的能力,提出了五种计算模型并设计出新的训练算法 CoSI,在属性 - 对象标记任务和空间关系任务中测试了 CLIP 的表现,结果表明虽然 CLIP 在属性 - 对象标记任务中表现良好且能够推广至新的未知属性 - 对象组合,但其无法可靠地绑定特性,对于对象之间的关系无法可靠地学习。
Dec, 2022
通过在大量文本图像对上进行自我监督的对比学习,RankCLIP 在扩展 CLIP 的刚性一对一匹配框架的同时,利用模态内和跨模态的排序一致性来提高对齐过程,捕捉每种模态之间和内部的细致的多对多关系,有效提升各种下游任务的性能,尤其在零样本分类方面,显著超越现有方法,突显了 RankCLIP 在进一步推进视觉语言预训练方面的潜力。
Apr, 2024
本文提出了一种用于对医学图像和文本进行训练的的简单而有效的框架 ——MedCLIP,该框架采用了对抗学习和多模式学习,并引入医学知识语义匹配。实验结果表明,MedCLIP 在零样本预测、有监督分类和图像文本检索等方面超过了现有最佳方法。令人惊讶的是,仅使用了 20K 的预训练数据就超过了使用约 200K 数据的现有最佳方法。
Oct, 2022
通过使用不同的图像参数化方法,利用生成模型和巧妙设计的蒸馏目标,我们提出了一种轻量级而高效的方法 SDS-CLIP,来改善 CLIP 模型的组合视觉 - 语言推理能力并在多个数据集上显示了显著的性能提升。
Jul, 2023
利用 OpenAI CLIP 模型中的视觉和文本特征进行任务细化微调,然后通过训练 Combiner 网络来整合双模态信息,并提供用于检索的组合特征,结果表明这种方法在复合图像检索方面优于当前先进方法。
Aug, 2023
通过研究基于组合性失败模式,我们发现文本到图像生成模型中 CLIP 文本编码器的文本条件不完备是无法生成高保真组合场景的主要原因,并提出仅通过在 CLIP 表示空间上学习简单的线性投影可以实现最佳组合性改进,同时不降低模型的 FID 分数。
Jun, 2024
提出一种名为 VT-CLIP 的方法来增强 CLIP 模型,它通过可视化引导文本,使文本的特征更适应图片,在多分类任务中表现出很高的效果。
Dec, 2021
介绍了一种改进的对比表示学习框架 CyCLIP,通过显式对图像和文本空间的几何一致性进行优化,提高了模型的一致性和表现在零样本分类和分布不变性方面。在标准基准测试中,与 CLIP 相比,零样本分类准确率和对自然分布变化的鲁棒性分别提高了 10%-24% 和 10%-27%。
May, 2022
本文提出 CLIP-benchmark,对 CLIP 及其变种进行评估、分析和基准测试,并发现了数据、监督和模型架构三个关键因素对性能的影响及应用更恰当的监督可以有效提高 CLIP 性能。
Mar, 2022
近年来,视觉与语言任务的性能显著提升。本文介绍了一个框架,极大地提高了现有模型对构成性语言的编码能力,在构成性基准测试中绝对改进了 10%,同时在标准的对象识别和检索基准测试中保持或提高了性能。
Feb, 2024