强韧多模型具有异常特征并编码更多概念

Oct, 2023

强韧多模型具有异常特征并编码更多概念

Robust multimodal models have outlier features and encode more concepts

Jonathan Crabbé, Pau Rodríguez, Vaishaal Shankar, Luca Zappella, Arno Blaas

TL;DR通过研究 12 个具有不同骨干（ResNets 和 ViTs）和预训练集（OpenAI、LAION-400M、LAION-2B、YFCC15M、CC12M 和 DataComp）的鲁棒多模型的表示空间，我们发现这些模型的表示空间呈现出稳健性的两个特征：（1）稳健模型具有被激活的异常特征，其中一些特征的值远高于平均值，这些异常特征在模型的表示空间中引入了特权方向；我们证明这些特权方向解释了模型的大部分预测能力，通过裁剪最不重要的表示空间方向可减少 80% 并不对模型的准确性和稳健性产生负面影响；（2）鲁棒模型在表示空间中编码了更多的概念，虽然这种概念的叠加使得鲁棒模型能够存储更多的信息，但也导致了高度多义的特征，从而增加了其解释的难度。我们讨论了这些观察结果如何为模型剪枝和机制可解释性等领域的未来研究铺平了道路。

Abstract

What distinguishes robust models from non-robust ones? This question has gained traction with the appearance of large-scale multimodal models, such as CLIP. These models have demonstrated unprecedented robustness

robust models representation spaces privileged directions outlier features multimodal models

发现论文，激发创造

多模态基础模型的零样本鲁棒性基准测试：一项试点研究

基于大规模的鲁棒性基准测试，本研究通过评估 CLIP 模型在自然分布偏移和对抗攻击下的性能，发现零样本多模态模型的鲁棒性明显不足，强调了对零样本多模态模型的鲁棒性进行改进的重要性。

Mar, 2024

多模式对比学习对分布偏移的鲁棒性

通过分析多模态对比学习 (MMCL) 方法，我们揭示了其在学习鲁棒表示方面的两种机制：类内对比机制和跨类特征共享机制，这两种机制防止了训练数据中过度呈现的虚假特征对通用核心特征的影响，从而在分布偏移下实现了更优的零样本分类精度。

Oct, 2023

多模态学习中的鲁棒性

本文提出了一个多模态鲁棒性框架，以系统分析常见的多模态表示学习方法，并针对其中的鲁棒性缺陷提出了两种干预技术，能够在三个数据集上提高 1.5-4 倍的鲁棒性。同时，通过在可能存在的额外模态上更好地利用这些干预技术，本文的算法在 AudioSet 20K 上取得了 44.2mAP 的优异表现。

Apr, 2023

Unicom: 用于图像检索的通用紧凑表示学习

本文研究了图像检索方法中预训练模型的应用，提出了一种基于 CLIP 模型从联合文本和视觉特征提取像素类描述符的方法，采用部分原型随机选择以及特征维度随机选择的方法来提高特征表示和冲突鲁棒性，最终在多个基准测试中取得了超过现有方法的性能表现。

Apr, 2023

探究视觉与语言预训练模型的鲁棒性

通过对现有的预训练模型进行全面评估和改进，本研究提出了一种名为 Mango 的方法，在嵌入空间中学习多模态对抗性噪声生成器，使得预训练的视觉 - 语言模型的鲁棒性得到了大幅度提升，并在七项鲁棒性测试中创造了新的最高水平。

Dec, 2020

用偏好模态量化和增强多模态稳健性

多模态模型容易受到单模态攻击和缺失条件的干扰，为了克服这些干扰，需要具备鲁棒的多模态表示。本文通过理论研究发现，较大的单模态表示边界和更可靠的模态融合是实现更高鲁棒性的重要组成部分。基于这一发现，引入了一种训练过程称为可证明鲁棒的多模态训练 (Certifiable Robust Multi-modal Training，CRMT)，该方法可以明显提高鲁棒性的可信度和灵活性。

Feb, 2024

分层稳健表示学习

本研究探讨了深度学习中中间层所提取的深层特征，并证明了这些特征的性能可能不佳，因为它们是通过最小化经验风险来学习的。针对当前任务与基准数据集的数据分布不同的情况，本研究提出了一种层次稳健优化方法来学习更通用的特征。该方法同时考虑了 example-level 与 concept-level 稳健性，并将问题公式化为带有 Wasserstein 模糊集约束的分布稳健优化问题。本文提出了一种高效的算法，并在标杆数据集上进行了实验，证明了稳健特征的有效性。

Nov, 2019

语音情感分析中的预训练模型表示及其对噪声的鲁棒性

研究了预训练模型表示在情感语音识别中的应用，探讨了情感维度的表示方式，发现情感的激活度和支配力主要依赖于声学信息，而情感的价值主要依赖于词汇信息。使用多模态融合表示生成了最先进的情感识别，改进了情感估计中的准确度，发现词汇表示比声学表示更具有鲁棒性，并证明多模态模型知识蒸馏有助于提高基于声音的模型的噪声抗干扰能力。

Mar, 2023

没有一种表示能够掌握所有知识：训练方法的重叠特征

通过对超参、架构、框架和数据集进行大规模实证研究，我们发现训练方法的差异会导致模型产生不同的泛化行为，从而在子域中表现更好，与其他模型的错误更不相关。这种多样性可以提高集成表现，并且连低准确度的模型也可以用来提高高准确度的模型。此外，我们发现训练方法的差异会使表示捕捉到有重叠但不是超集的特征集，将其结合可以提高下游性能。

Oct, 2021

通过潜在的部分因果模型揭示多模态对比表示学习

用于多模态数据的统一因果模型，通过线性独立成分分析的方法，可以提高对多模态对比表示学习的理解和分析深度，发现预训练的多模态模型可以通过学习解缠表示来提高其性能和鲁棒性。

Feb, 2024