公平 CLIP:利用 RKHS 中的函数消除 CLIP 零样本预测的偏见
通过使用 CLIP 模型作为丰富的知识源来推断敏感信息,我们在图像和语言嵌入派生的相似度上进行样本聚类,并评估其与真实属性分布的一致性,然后通过重新采样和增强性能较差的聚类来训练目标模型,实验结果表明,该模型在多个基准偏见数据集上取得了明显的公平性改善,说明 CLIP 可以提取受语言触发的区分性敏感信息,用于推动模型公平性。
Mar, 2024
通过在大量文本图像对上进行自我监督的对比学习,RankCLIP 在扩展 CLIP 的刚性一对一匹配框架的同时,利用模态内和跨模态的排序一致性来提高对齐过程,捕捉每种模态之间和内部的细致的多对多关系,有效提升各种下游任务的性能,尤其在零样本分类方面,显著超越现有方法,突显了 RankCLIP 在进一步推进视觉语言预训练方面的潜力。
Apr, 2024
本文提出 CLIP-benchmark,对 CLIP 及其变种进行评估、分析和基准测试,并发现了数据、监督和模型架构三个关键因素对性能的影响及应用更恰当的监督可以有效提高 CLIP 性能。
Mar, 2022
介绍了一种改进的对比表示学习框架 CyCLIP,通过显式对图像和文本空间的几何一致性进行优化,提高了模型的一致性和表现在零样本分类和分布不变性方面。在标准基准测试中,与 CLIP 相比,零样本分类准确率和对自然分布变化的鲁棒性分别提高了 10%-24% 和 10%-27%。
May, 2022
通过提出 ReCLIP 方法,第一个无需源数据或目标标记数据的视觉 - 语言模型领域自适应方法,该方法使用伪标签进行交叉模态自训练以减小领域间差异和错位对模型性能的影响,在 22 个图像分类基准测试中将 CLIP 的平均错误率从 30.17% 降低到 25.06%。
Aug, 2023
提出一个两阶段模型,先用 prior 生成 CLIP 图像嵌入,再由 decoder 在图像嵌入的条件下生成图像。实验表明该模型可以提高图像的多样性,并在完美保留语义和风格前提下变化非必要的细节。利用扩散模型作为 decoder, 同时使用自回归和扩散模型作为 prior,发现后者更加高效且产生的样本更优。
Apr, 2022
基于大规模的鲁棒性基准测试,本研究通过评估 CLIP 模型在自然分布偏移和对抗攻击下的性能,发现零样本多模态模型的鲁棒性明显不足,强调了对零样本多模态模型的鲁棒性进行改进的重要性。
Mar, 2024
通过对 CLIP 的理论研究,我们证明了多模态学习的可转移表示学习,并分析了其在零样本学习和下游任务中的性能。在此基础上,我们提出了一种新的 CLIP 类型方法,在基准数据集上实现了比 CLIP 和其他最先进方法更好的性能。
Oct, 2023
使用预训练的基础模型进行零样本异常分割是一种有前途的方法,它可以在不需要昂贵的领域特定训练或微调的情况下实现有效的算法。我们通过扰动测试数据使用三种语义变换(有界角度旋转、有界饱和度变化和色调变化)来研究 WinCLIP [14] 零样本异常分割算法的性能。通过在每个样本的最坏情况扰动中进行聚合,我们经验性地测量了一个较低的性能下界,并发现平均性能在 ROC 曲线下面积和区域重叠曲线下面积方面下降了最高达 20% 和 40%。我们发现,无论模型架构或学习目标如何,这三种 CLIP 主干的性能都普遍降低,这表明需要进行仔细的性能评估。
May, 2024
我们提出了一种用于评估具有歧视性基础模型(如相互对比语言预训练模型)的偏差的新分类方法,并根据该分类方法系统评估了现有的缓解这些模型偏差的方法。我们针对 OpenAI 的 CLIP 和 OpenCLIP 模型对关键的应用进行了评估,例如零样本分类、图像检索和图像字幕等。我们根据三个方面对所需的行为进行了分类:(i)任务是否涉及人类;(ii)任务的主观性程度(即,不同背景的人们是否会同意标注);以及(iii)任务的预期目的,是否通过公正性(即,独立于受保护属性进行决策)或代表性(即,通过最大程度地增加多样性进行决策)来更好地服务于公平性。最后,我们在十个不同的数据集上提供了二元和多值受保护属性的定量公平性评估结果。我们发现,用于公平性表示的后处理方法 “公平 PCA” 在大多数上述任务的去偏中效果非常好,同时只带来了轻微的性能损失。然而,不同的去偏方法在不同的任务中的有效性有所不同。因此,对于特定的使用情况,应选择相应的去偏方法。
Oct, 2023