本文探讨了 CLIP 在合成知识下图像描述的能力,提出了五种计算模型并设计出新的训练算法 CoSI,在属性 - 对象标记任务和空间关系任务中测试了 CLIP 的表现,结果表明虽然 CLIP 在属性 - 对象标记任务中表现良好且能够推广至新的未知属性 - 对象组合,但其无法可靠地绑定特性,对于对象之间的关系无法可靠地学习。
Dec, 2022
本文通过提出一种新颖的训练免费的组合 CLIP 模型 (ComCLIP) 来解决复合图像和文本匹配的问题,通过将输入图像分解为主题、对象和动作子图像,并组合 CLIP 的视觉编码器和文本编码器来在组成性文本嵌入和子图像嵌入上执行动态匹配,从而实现了对差异性语义的建模,提高了 CLIP 的零样本推理能力。
Nov, 2022
CLIP 模型是基于文本查询的图像检索的重要进展,通过在大规模数据集上进行训练获得显著的泛化能力,实现了图像和文本的跨模态理解,促进了自然语言理解和计算机视觉的无缝集成,为多媒体应用中的信息检索提供了强大的工具。
Jan, 2024
本文介绍了如何利用 CLIP 模型中的丰富视觉语言先验,以零样本方式评估图像的质量感受和抽象感知,实验结果表明 CLIP 具有很好的泛化能力。
Jul, 2022
通过分析 CLIP 模型的脆弱性,我们揭示了其中关于图像质量和压缩对零样本图像识别准确性影响的本质,并在 CIFAR-10 和 STL-10 数据集上进行了广泛评估,从而为改进 CLIP 和其他视觉语言模型的鲁棒性提供了基础。
Nov, 2023
本篇研究发现,使用自然语言的方式来训练 Contrastive Language-Image Pretraining (CLIP) 的文本编码器,能够更好地实现短语的理解,甚至能够在正确的提示下,显著优于流行的语言模型,有效地提升实体聚类和扩展任务的效果。
Oct, 2022
通过引入语义组合样本,我们通过一个简单的技术(称为 CLIP-C),显著改善了零样本图像分类和跨模态检索的能力,而不需要额外的计算开销或模型参数增加。
Jul, 2024
在艺术作品领域中,我们通过对艺术品图像进行多模式图像预训练,并使用最新的 CLIP 模型,在 NoisyArt 数据集上进行了详尽的实验,取得了令人印象深刻的(零样本)分类效果和良好的艺术品之间及描述与艺术品之间的效果。
Sep, 2023
通过使用科学论文的文本 - 图像数据,该研究探索在特定领域内加入具有更高质量的有限数量数据是否能够提高 CLIP 模型的整体性能。小规模实验结果显示模型性能有中等程度的提升,表明使用该研究所考虑的数据来源来训练大规模 CLIP 模型是一个有价值的研究方向。
通过使用不同的图像参数化方法,利用生成模型和巧妙设计的蒸馏目标,我们提出了一种轻量级而高效的方法 SDS-CLIP,来改善 CLIP 模型的组合视觉 - 语言推理能力并在多个数据集上显示了显著的性能提升。
Jul, 2023