基准测试低数据量下对自然分布变化的鲁棒性

Apr, 2023

基准测试低数据量下对自然分布变化的鲁棒性

Benchmarking Low-Shot Robustness to Natural Distribution Shifts

Aaditya Singh, Kartik Sarangmath, Prithvijit Chattopadhyay, Judy Hoffman

TL;DR本文研究了不同低样本情况下，自然分布偏移的鲁棒性，发现没有单一模型比其他模型更鲁棒，同时现有的干预手段在某些数据集上可能无法提高鲁棒性。

Abstract

robustness to natural distribution shifts has seen remarkable progress thanks to recent pre-training strategies combined with better

robustness pre-training fine-tuning natural distribution shifts low-shot regimes

发现论文，激发创造

图像分类模型自然分布偏移鲁棒性测量

本研究评估了 204 个 ImageNet 模型在 213 个不同的测试条件下的表现，发现大多数当前技术无法提供对真实数据中分布变化的健壮性，唯一例外的是在较大且更多样化的数据集上进行训练可以在多种情况下提高健壮性，并且我们的研究表明当前真实数据中的分布变化是一个开放的问题。

Jul, 2020

稳健性的多重面貌：对于越界泛化的关键分析

本研究介绍了四个新的现实世界分布变化数据集，重点探讨了先前提出的改进模型鲁棒性方法，并测试了它们的有效性。我们发现使用更大的模型和人工数据增强可以提高真实世界分布变化的鲁棒性，这与之前的研究不同。我们的研究结果表明，未来的研究必须同时研究多个分布变化，因为我们证明评估的方法不能始终提高模型的鲁棒性。

Jun, 2020

分布偏移的细粒度分析

本研究提出了一种框架来分析各种分布转移，并通过评估 19 个不同类别的方法，提供了当前最先进方法的整体分析。结果显示，与标准 ERM 基线相比，预训练和数据扩充（学习或启发式）在许多情况下都具有很大的优势，但不能很好地适应不同的数据集和转移。

Oct, 2021

卷积神经网络的强健性和可迁移性研究

对现代深度卷积网络（CNN）未能在分布漂移下推广的问题进行了研究，并探究了预备数据量、模型规模和数据处理流程对迁移性能的影响，发现增加训练集和模型大小显著提高了分布偏移鲁棒性，同时是非常简单的预处理，如修改图像分辨率在某些情况下可以显著缓解鲁棒性问题。最后，我们提出了一个新的综合数据集 SI-Score 进行了系统的分析。

Jul, 2020

多模态基础模型的零样本鲁棒性基准测试：一项试点研究

基于大规模的鲁棒性基准测试，本研究通过评估 CLIP 模型在自然分布偏移和对抗攻击下的性能，发现零样本多模态模型的鲁棒性明显不足，强调了对零样本多模态模型的鲁棒性进行改进的重要性。

Mar, 2024

探索问答模型的分布稳健性

在问答模型的分布稳健性中，我们进行了一项大规模的实证评估，研究了超过 350 个模型和 16 个问答数据集的情况，发现在很多情况下，模型的变化并不影响稳健性，而在分布内性能单独决定着分布外的性能，并且我们的发现表明，零样本和上下文学习方法比完全微调的模型更能抵御分布变化，少样本提示微调模型表现出比少样本微调跨度预测模型更好的稳健性，而参数高效和稳健性增强的训练方法对稳健性没有显著的改进。

Oct, 2022

高效提升预训练模型的鲁棒性

使用知识转移方法，将较小模型的鲁棒性迁移到大规模网络中，提高大规模模型的性能和鲁棒性。

Sep, 2023

在不同程度的分布偏移下，鲁棒性可能比我们认为的更脆弱

我们的研究探讨了分布偏移程度的更加微妙的评估设置，我们发现模型的稳健性在不同程度的分布偏移下可能相当脆弱和不一致，因此在从有限范围下的评估中得出结论时应更加谨慎。此外，我们观察到大规模预训练模型（如 CLIP）对于新颖下游任务的微小分布偏移也很敏感。这表明，尽管预训练表示可以帮助提高内分布性能，但在某些 OOD 场景中可能对泛化性能产生最小甚至负面影响，如果不正确使用。鉴于这些发现，我们鼓励未来的研究在可能的情况下进行更广泛范围的评估。

Oct, 2023

分布鲁棒模型的元分析

通过 meta-analysis，我们发现具有良好 OOD 鲁棒性的最佳表现的模型都具有四个共同点，即视觉 - 语言预训练具有巨大的潜力。

Jun, 2022

对于分布转移下的对抗鲁棒性的通用性

本研究探讨了基于域一般化的经验和认证鲁棒性之间的相互影响，并发现两种鲁棒性均适用于未知的数据域。同时我们也证明，在医学应用中，对抗性增强显著提高了鲁棒性的泛化能力，对数据准确性影响不大。

Sep, 2022