基准测试低数据量下对自然分布变化的鲁棒性
本研究评估了 204 个 ImageNet 模型在 213 个不同的测试条件下的表现,发现大多数当前技术无法提供对真实数据中分布变化的健壮性,唯一例外的是在较大且更多样化的数据集上进行训练可以在多种情况下提高健壮性,并且我们的研究表明当前真实数据中的分布变化是一个开放的问题。
Jul, 2020
本研究介绍了四个新的现实世界分布变化数据集,重点探讨了先前提出的改进模型鲁棒性方法,并测试了它们的有效性。我们发现使用更大的模型和人工数据增强可以提高真实世界分布变化的鲁棒性,这与之前的研究不同。我们的研究结果表明,未来的研究必须同时研究多个分布变化,因为我们证明评估的方法不能始终提高模型的鲁棒性。
Jun, 2020
本研究提出了一种框架来分析各种分布转移,并通过评估 19 个不同类别的方法,提供了当前最先进方法的整体分析。结果显示,与标准 ERM 基线相比,预训练和数据扩充(学习或启发式)在许多情况下都具有很大的优势,但不能很好地适应不同的数据集和转移。
Oct, 2021
对现代深度卷积网络(CNN)未能在分布漂移下推广的问题进行了研究,并探究了预备数据量、模型规模和数据处理流程对迁移性能的影响,发现增加训练集和模型大小显著提高了分布偏移鲁棒性,同时是非常简单的预处理,如修改图像分辨率在某些情况下可以显著缓解鲁棒性问题。最后,我们提出了一个新的综合数据集 SI-Score 进行了系统的分析。
Jul, 2020
基于大规模的鲁棒性基准测试,本研究通过评估 CLIP 模型在自然分布偏移和对抗攻击下的性能,发现零样本多模态模型的鲁棒性明显不足,强调了对零样本多模态模型的鲁棒性进行改进的重要性。
Mar, 2024
在问答模型的分布稳健性中,我们进行了一项大规模的实证评估,研究了超过 350 个模型和 16 个问答数据集的情况,发现在很多情况下,模型的变化并不影响稳健性,而在分布内性能单独决定着分布外的性能,并且我们的发现表明,零样本和上下文学习方法比完全微调的模型更能抵御分布变化,少样本提示微调模型表现出比少样本微调跨度预测模型更好的稳健性,而参数高效和稳健性增强的训练方法对稳健性没有显著的改进。
Oct, 2022
我们的研究探讨了分布偏移程度的更加微妙的评估设置,我们发现模型的稳健性在不同程度的分布偏移下可能相当脆弱和不一致,因此在从有限范围下的评估中得出结论时应更加谨慎。此外,我们观察到大规模预训练模型(如 CLIP)对于新颖下游任务的微小分布偏移也很敏感。这表明,尽管预训练表示可以帮助提高内分布性能,但在某些 OOD 场景中可能对泛化性能产生最小甚至负面影响,如果不正确使用。鉴于这些发现,我们鼓励未来的研究在可能的情况下进行更广泛范围的评估。
Oct, 2023
本研究探讨了基于域一般化的经验和认证鲁棒性之间的相互影响,并发现两种鲁棒性均适用于未知的数据域。同时我们也证明,在医学应用中,对抗性增强显著提高了鲁棒性的泛化能力,对数据准确性影响不大。
Sep, 2022