多模态基础模型的零样本鲁棒性基准测试:一项试点研究
通过对 CLIP 的理论研究,我们证明了多模态学习的可转移表示学习,并分析了其在零样本学习和下游任务中的性能。在此基础上,我们提出了一种新的 CLIP 类型方法,在基准数据集上实现了比 CLIP 和其他最先进方法更好的性能。
Oct, 2023
使用预训练的基础模型进行零样本异常分割是一种有前途的方法,它可以在不需要昂贵的领域特定训练或微调的情况下实现有效的算法。我们通过扰动测试数据使用三种语义变换(有界角度旋转、有界饱和度变化和色调变化)来研究 WinCLIP [14] 零样本异常分割算法的性能。通过在每个样本的最坏情况扰动中进行聚合,我们经验性地测量了一个较低的性能下界,并发现平均性能在 ROC 曲线下面积和区域重叠曲线下面积方面下降了最高达 20% 和 40%。我们发现,无论模型架构或学习目标如何,这三种 CLIP 主干的性能都普遍降低,这表明需要进行仔细的性能评估。
May, 2024
通过分析多模态对比学习 (MMCL) 方法,我们揭示了其在学习鲁棒表示方面的两种机制:类内对比机制和跨类特征共享机制,这两种机制防止了训练数据中过度呈现的虚假特征对通用核心特征的影响,从而在分布偏移下实现了更优的零样本分类精度。
Oct, 2023
该研究全面调查了 Contrastive Language-Image Pre-training (CLIP) 模型的安全目标,特别关注三个关键属性:对视觉因素变化的弹性,校准的不确定性估计以及检测异常输入的能力。研究揭示了 CLIP 模型的一些以前未知的见解,并强调了训练源设计的重要性及其对三个安全相关属性的深远影响。该全面研究有助于引导更加稳健可靠的 CLIP 模型的发展。
Feb, 2024
本文提出了 RoCLIP 方法,通过与一组随机示例进行比较来有效地断开损坏图像 - 字幕对之间的关联,从而实现对 CLIP 多模态模型的强化预训练和微调,有效降低目标数据污染和后门攻击的成功率,并提高模型性能。
Mar, 2023
多模态模型的少样本适应方法在医学成像等领域仍有待提高,研究者提出了基于提示、适配器和外部知识的三种技术方法,本论文对这些方法进行了综述及对比,并推导出了多模态模型少样本适应的泛化误差界限及相应解决方案。
Jan, 2024
通过交叉模态对比学习以及软图像 - 文本对齐等方法,改进了 CLIP 模型,在处理带有噪声的数据集时能更加高效地学习出具有鲁棒性的表示。经过对 14 个基准数据集的广泛评估,该方法在多种设置下表现均优于 CLIP,并且没有增加计算成本。此外,该方法还在自然分布偏移的鲁棒性测试中表现更好。
Apr, 2022
在这项研究中,我们引入了 MobileCLIP 这个新的高效图像 - 文本模型系列,通过一种名为多模态增强训练的新颖且高效的训练方法,利用图像字幕模型和一组强大的 CLIP 编码器中的知识转移,将额外的知识存储在增强数据集中而避免了训练时计算开销,从而实现了零样本分类和检索任务的新的最佳延迟 - 准确性权衡。
Nov, 2023