关于 CLIP 在组合逻辑推理中的潜力
本文探讨了 CLIP 在合成知识下图像描述的能力,提出了五种计算模型并设计出新的训练算法 CoSI,在属性 - 对象标记任务和空间关系任务中测试了 CLIP 的表现,结果表明虽然 CLIP 在属性 - 对象标记任务中表现良好且能够推广至新的未知属性 - 对象组合,但其无法可靠地绑定特性,对于对象之间的关系无法可靠地学习。
Dec, 2022
通过使用不同的图像参数化方法,利用生成模型和巧妙设计的蒸馏目标,我们提出了一种轻量级而高效的方法 SDS-CLIP,来改善 CLIP 模型的组合视觉 - 语言推理能力并在多个数据集上显示了显著的性能提升。
Jul, 2023
通过基于 VidSitu 数据集的细节导向字幕和层级损失,我们改进了 contrastive language image pretraining (CLIP) 模型,提高了其对细粒度和句法的理解能力,并在不同任务中取得了稳定的改进。
Jan, 2024
使用一种新颖的生成方法,我们对大型视觉语言模型(如 GPT-4)进行控制,以描述图像并进行组合推理,在 Winoground 数据集上优于其他嵌入式方法,并在最佳描述的增强下获得最高 10% 的准确率改进。
Jan, 2024
通过引入语义组合样本,我们通过一个简单的技术(称为 CLIP-C),显著改善了零样本图像分类和跨模态检索的能力,而不需要额外的计算开销或模型参数增加。
Jul, 2024
本文通过提出一种新颖的训练免费的组合 CLIP 模型 (ComCLIP) 来解决复合图像和文本匹配的问题,通过将输入图像分解为主题、对象和动作子图像,并组合 CLIP 的视觉编码器和文本编码器来在组成性文本嵌入和子图像嵌入上执行动态匹配,从而实现了对差异性语义的建模,提高了 CLIP 的零样本推理能力。
Nov, 2022
现代应用越来越需要适应训练过程中未遇到的新概念的灵活计算机视觉模型。本文通过对开放词汇物体识别限制的详细研究,发现了这些限制的根本原因,并试图理解是否存在于 CLIP 嵌入中的细粒度知识未能在推断时利用。我们的初步实验表明,简单的 CLIP 潜空间重新投影有助于分离细粒度概念,为开发能够处理细节的骨干网络铺平了道路。
Apr, 2024
通过 CounterCurate 框架,综合改善对比式和生成式多模态模型的视觉 - 语言组合推理能力,通过解决忽视物理基础推理(计数和位置理解)和使用高能力文本和图像生成模型进行语义反事实微调的潜力等两个问题来提高推理性能。
Feb, 2024
本文分析了一种名为 CLIP 的计算机视觉模型,并探讨了其潜在的应用与局限性,其中包括了如何避免模型固有的偏差,以及在模型部署时考虑更广泛的特性,而非单纯关注任务的分类准确度。
Aug, 2021
通过比较使用传统的 ImageNet 预训练模型和使用 CLIP 模型训练的模型,在实现与物理机器人和虚拟模拟任务相关的领域,我们展示并证明了在不加入神经复杂性、语义地图、辅助训练任务与深度图等的情况下使用 EmbCLIP 基线的高性能表现,从而证明了 CLIP 编码器对于情感取向环境下的物理对象导航与智能的有效性。
Nov, 2021