分布鲁棒模型的元分析
本文通过构建具有现实分布变化的新的鲁棒性基准,系统地测量了七个 NLP 数据集的预训练 Transformers 的 OOD 泛化能力。研究结果表明,Pretrained Transformers 的性能下降显著较小,在检测异常或 OOD 示例方面更加有效,同时发现更多样化的预训练数据可以增强模型的鲁棒性。
Apr, 2020
构建一个强健的模型,能够在分布转变的情况下有效地泛化到测试样本,在医学影像领域仍然是一个重要的挑战。本研究通过对基于自然图像和文本数据进行预训练的视觉和语言基础模型进行 fine-tuning 后的鲁棒性评估,证明了基于基础模型的优越性。此外,研究还开发了一种新的冻结模型的贝叶斯不确定性估计方法,并将其用作衡量模型在超出分布数据上性能的指标,对于实际应用具有显著的益处。实验不仅揭示了在自然图像应用中常用的线上准确性和线上一致性指标的局限性,还强调了引入贝叶斯不确定性的潜力,特别是低不确定性预测通常具有更高的超出分布性能。
Nov, 2023
通过对比研究和深度分析来评估各种最先进的方法对基于置信度的 OOD 检测的能力,并采用计算机视觉基准来复现和比较多种 OOD 检测方法。评估了它们在使用胸部 X 线进行疾病分类这一具有挑战性任务中的能力,结果表明在计算机视觉任务中高性能不直接转化为医学成像任务中的准确性,因此为开发下一代 OOD 检测方法提供了有用的见解。
Jul, 2021
研究使用机器学习技术的安全关键系统需要可靠的不确定性评估。本研究发现,深度神经网络在处理分布外数据时可能会产生过度自信的预测。本研究提出了一种具有保护分布外数据和高准确度的分类器,并提供所有实验代码。
Jun, 2021
该研究提供了对三种最新的开放词汇基础目标检测模型(OWL-ViT、YOLO World 和 Grounding DINO)的零样本能力的全面鲁棒性比较,通过在包含分布转移的 COCO-O 和 COCO-C 基准上进行实验揭示了模型鲁棒性的挑战。
Apr, 2024
我们的研究探讨了分布偏移程度的更加微妙的评估设置,我们发现模型的稳健性在不同程度的分布偏移下可能相当脆弱和不一致,因此在从有限范围下的评估中得出结论时应更加谨慎。此外,我们观察到大规模预训练模型(如 CLIP)对于新颖下游任务的微小分布偏移也很敏感。这表明,尽管预训练表示可以帮助提高内分布性能,但在某些 OOD 场景中可能对泛化性能产生最小甚至负面影响,如果不正确使用。鉴于这些发现,我们鼓励未来的研究在可能的情况下进行更广泛范围的评估。
Oct, 2023
本文提出了一种用于评估图像分类器检测类别 - 分布外实例能力的新框架,并将该技术应用于 ImageNet 数据集,分析结果揭示了多个新观察,包括知识蒸馏能够一致提高分布外实例检测性能,ViTs 的子集比任何其他模型都能更好地检测出分布外实例等。
Feb, 2023
深度神经网络在各种技术和服务中得到越来越广泛的应用,但其容易受到来自训练集不同分布的样本的干扰,而常见的解决方法是使深度神经网络具备检测这种样本的能力。本文提出了一种基于 ImageNet 和 Places365 的全面评估标准,根据与训练集的语义相似性,将个别类别分为内部分布和外部分布,通过不同的技术确定哪些类别应被视为内部分布,得到具备不同性质的评估标准。不同的 ODD 检测技术在不同的评估标准下的实验结果表明,它们的有效性取决于所选择的评估标准,而基于置信度的技术在接近 ODD 样本上可能优于基于分类器的技术。
Apr, 2024
本文重新审视了自然语言处理领域中关于评估 out-of-distribution 鲁棒性的相关研究,并提出了一个基准套件(BOSS),通过其中包含的 5 项任务和 20 个数据集来评估 pre-trained large language models 和 5 种经典方法在分布转移时的性能,结果发现在 ID 示例中,微调特定领域模型的性能明显优于 LLMs,在 OOD 示例中,优先考虑具有上下文学习的 LLMs 结果更好,但大规模的微调和大型 LLMs 都面临着有效解决下游任务的挑战。
Jun, 2023
现有研究在提高对抗鲁棒性方面取得了很大进展,但通常只在与训练数据相同分布的数据上进行测试,即内分布(ID)测试。然而,如何在输入分布转移(即出分布(OOD)测试)下实现这种鲁棒性的泛化仍不清楚。因此,我们提出了一个名为 OODRobustBench 的基准来全面评估 OOD 对抗鲁棒性,使用 23 种数据集级的转移(即输入分布中的自然转移)和 6 种威胁级的转移(即未知的对抗威胁模型)。OODRobustBench 用于评估 706 个稳健模型,使用 60.7K 个对抗性评估。这个大规模分析显示:1)对抗鲁棒性在 OOD 泛化问题上存在严重问题;2)ID 鲁棒性与 OOD 鲁棒性在许多分布转移下呈正线性相关,这使得可以从 ID 鲁棒性预测 OOD 鲁棒性。基于这一点,我们能够预测现有强化训练方案的 OOD 鲁棒性的上限。研究结果表明,实现 OOD 鲁棒性需要设计超出传统方法的新方法。最后,我们发现额外数据、数据增强、先进的模型架构和特定的正则化方法可以提高 OOD 鲁棒性。值得注意的是,与基准相比,发现的训练方案在威胁转移下表现出明显更高的鲁棒性,同时保持高的 ID 鲁棒性,为多攻击和未知攻击的鲁棒性提供新的有希望的解决方案。
Oct, 2023