利用 CLIP 进行敏感信息推断和模型公平性改进
公平性对于深度学习至关重要,尤其是在医疗领域,因为这些模型会影响诊断和治疗决策。本研究介绍了第一个公平的医学视觉语言数据集 FairVLMed,通过提供详细的人口属性、真实标签和临床笔记来深入研究视觉语言基础模型内的公平性。使用 FairVLMed,我们对两个广泛使用的视觉语言模型(CLIP 和 BLIP2)进行了全面的公平性分析,这两个模型分别在自然和医学领域进行了预训练,并跨越了四个不同的受保护属性。研究结果显示,所有视觉语言模型都存在显著偏见,其中亚洲人、男性、非西班牙裔和西班牙语为种族、性别、民族和语言方面的首选子群体。为了减轻这些偏见,我们提出了一种基于最优输运的方法 FairCLIP,通过减小整体样本分布和相应人口群体分布之间的 Sinkhorn 距离,在性能和公平性之间实现了有利的权衡。作为首个类似数据集,FairVLMed 有潜力促进开发既具有道德意识又具有临床有效性的机器学习模型的进步。
Mar, 2024
我们提出了一种用于评估具有歧视性基础模型(如相互对比语言预训练模型)的偏差的新分类方法,并根据该分类方法系统评估了现有的缓解这些模型偏差的方法。我们针对 OpenAI 的 CLIP 和 OpenCLIP 模型对关键的应用进行了评估,例如零样本分类、图像检索和图像字幕等。我们根据三个方面对所需的行为进行了分类:(i)任务是否涉及人类;(ii)任务的主观性程度(即,不同背景的人们是否会同意标注);以及(iii)任务的预期目的,是否通过公正性(即,独立于受保护属性进行决策)或代表性(即,通过最大程度地增加多样性进行决策)来更好地服务于公平性。最后,我们在十个不同的数据集上提供了二元和多值受保护属性的定量公平性评估结果。我们发现,用于公平性表示的后处理方法 “公平 PCA” 在大多数上述任务的去偏中效果非常好,同时只带来了轻微的性能损失。然而,不同的去偏方法在不同的任务中的有效性有所不同。因此,对于特定的使用情况,应选择相应的去偏方法。
Oct, 2023
本研究针对 CLIP 在像素级开放词汇学习任务中面临的输入像素误识别问题,提出了一种名为 TagCLIP 的改进方法,通过引入一种名为 trusty token 的可信标记,成功提高了现有模型的泛化容量。针对 PASCAL VOC 2012 和 COCO-Stuff 164K 两大数据集,TagCLIP 对于未知分类的 IOU 值均有显著提升。
Apr, 2023
本文提出 CLIP-benchmark,对 CLIP 及其变种进行评估、分析和基准测试,并发现了数据、监督和模型架构三个关键因素对性能的影响及应用更恰当的监督可以有效提高 CLIP 性能。
Mar, 2022
通过演化搜索算法和大语言模型的上下文学习能力,我们提出了一种能够发现解释性又具有辨识性的用于视觉识别的属性集合的新方法,并在五个细粒度的 iNaturalist 数据集上比最先进的基准方法提高了 18.4%,在两个 KikiBouba 数据集上提高了 22.2%。
Apr, 2024
利用 LP-CLIP 技术通过引入一个线性探测层来提高 CLIP 的鲁棒性,该技术利用 CLIP 生成的伪标签以及自训练策略进行训练,无需注释数据,能够增强模型在真实场景中应对多种不确定性和挑战的能力,并在各种数据集上实现了 SOTA 结果
Sep, 2023
针对多模态 AI 在视觉 - 语言任务中引发的数据隐私问题,提出了基于差分隐私的 CLIP 模型 (Dp-CLIP),通过梯度裁剪和不满足 DP-SGD 文献分析所假设的平滑条件的损失函数之间的权衡来平衡效用和隐私保护。
Jun, 2023
研究发现 CLIP 预训练在面对数据不平衡时相比于监督学习表现出明显的鲁棒性和学习泛化能力。通过对各种潜在因素的控制实验研究,揭示了 CLIP 预训练的伪任务形成了一个动态分类问题,在训练中只包含部分类别,从而消除了主导类别的偏差且隐含地实现了学习信号的平衡。此外,CLIP 的鲁棒性和区分能力随着更具描述性的语言监督、更大规模的数据以及更广泛的开放世界概念的使用而提高,而这些在监督学习中是无法实现的。该研究不仅揭示了 CLIP 在数据不平衡情况下的泛化机制,还为研究界提供了有价值的启示。通过监督学习和自监督学习验证了这些发现,使得在不平衡数据上训练的模型能够在多样化的识别任务上达到 CLIP 级别的性能。
May, 2024
该研究全面调查了 Contrastive Language-Image Pre-training (CLIP) 模型的安全目标,特别关注三个关键属性:对视觉因素变化的弹性,校准的不确定性估计以及检测异常输入的能力。研究揭示了 CLIP 模型的一些以前未知的见解,并强调了训练源设计的重要性及其对三个安全相关属性的深远影响。该全面研究有助于引导更加稳健可靠的 CLIP 模型的发展。
Feb, 2024
通过使用简单的线性探测器,本研究探讨了如何从 CLIP 的嵌入中有效地提取特定任务的核心特征,结果显示 CLIP 的文本表示往往受到了有偏向的预训练数据中具有误导性的相关性的影响,实证结果表明相比文本嵌入,依赖于 CLIP 的视觉表示更为实用,可克服内置偏见。
May, 2024