OOD-CV: 自然图像个体干扰鲁棒性的离群分布偏移基准
我们引入了 OOD-CV-v2 数据集,其中包括了 10 个物体类别的姿态、形状、纹理、上下文和天气条件之外的分布数据,以提高图像分类、物体检测和 3D 姿态估计模型的鲁棒性性能。经过大量的实验,我们发现当前的提高鲁棒性方法只有微小的作用,并且可能会降低鲁棒性;同时,在卷积和 transformer 架构之间没有明显的差异。
Apr, 2023
计算机视觉应用中,现有的稳健性基准测试依赖于对数字图像的扰动,从而偏离了图像获取过程中发生的分布转变。为了弥合这一差距,我们引入了一个新的分布转变数据集 ImageNet-ES,该数据集由一个真实相机在一个可控实验环境中直接捕获的 202k 张图像组成。通过这个新数据集,我们评估了超出分布范围 (Out-of-Distribution, OOD) 检测和模型稳健性。我们发现,现有的 OOD 检测方法无法应对 ImageNet-ES 中的协变量转变,这意味着应重新审视 OOD 的定义和检测,以适应真实世界的分布变化。我们还观察到,通过学习环境和传感器的变化,模型在 ImageNet-C 和 - ES 方面都更加稳健,这是在现有数字增强的基础上的补充。最后,我们的结果表明,通过相机传感器控制有效地减轻转变可以显著提高性能,而无需增加模型大小。通过这些发现,我们的基准测试可能有助于未来关于计算机视觉稳健性、OOD 和相机传感器控制的研究。我们的代码和数据集可在此 https URL 找到。
Apr, 2024
通过引入基于 COCO 的 COCO-O 测试数据集,研究了 100 多种现代目标检测器的鲁棒性效果,并发现了各种架构设计、数据增强和预训练技术对鲁棒性的影响。
Jul, 2023
该研究提供了对三种最新的开放词汇基础目标检测模型(OWL-ViT、YOLO World 和 Grounding DINO)的零样本能力的全面鲁棒性比较,通过在包含分布转移的 COCO-O 和 COCO-C 基准上进行实验揭示了模型鲁棒性的挑战。
Apr, 2024
现有研究在提高对抗鲁棒性方面取得了很大进展,但通常只在与训练数据相同分布的数据上进行测试,即内分布(ID)测试。然而,如何在输入分布转移(即出分布(OOD)测试)下实现这种鲁棒性的泛化仍不清楚。因此,我们提出了一个名为 OODRobustBench 的基准来全面评估 OOD 对抗鲁棒性,使用 23 种数据集级的转移(即输入分布中的自然转移)和 6 种威胁级的转移(即未知的对抗威胁模型)。OODRobustBench 用于评估 706 个稳健模型,使用 60.7K 个对抗性评估。这个大规模分析显示:1)对抗鲁棒性在 OOD 泛化问题上存在严重问题;2)ID 鲁棒性与 OOD 鲁棒性在许多分布转移下呈正线性相关,这使得可以从 ID 鲁棒性预测 OOD 鲁棒性。基于这一点,我们能够预测现有强化训练方案的 OOD 鲁棒性的上限。研究结果表明,实现 OOD 鲁棒性需要设计超出传统方法的新方法。最后,我们发现额外数据、数据增强、先进的模型架构和特定的正则化方法可以提高 OOD 鲁棒性。值得注意的是,与基准相比,发现的训练方案在威胁转移下表现出明显更高的鲁棒性,同时保持高的 ID 鲁棒性,为多攻击和未知攻击的鲁棒性提供新的有希望的解决方案。
Oct, 2023
深度神经网络在各种技术和服务中得到越来越广泛的应用,但其容易受到来自训练集不同分布的样本的干扰,而常见的解决方法是使深度神经网络具备检测这种样本的能力。本文提出了一种基于 ImageNet 和 Places365 的全面评估标准,根据与训练集的语义相似性,将个别类别分为内部分布和外部分布,通过不同的技术确定哪些类别应被视为内部分布,得到具备不同性质的评估标准。不同的 ODD 检测技术在不同的评估标准下的实验结果表明,它们的有效性取决于所选择的评估标准,而基于置信度的技术在接近 ODD 样本上可能优于基于分类器的技术。
Apr, 2024
本文提出了一种用于评估图像分类器检测类别 - 分布外实例能力的新框架,并将该技术应用于 ImageNet 数据集,分析结果揭示了多个新观察,包括知识蒸馏能够一致提高分布外实例检测性能,ViTs 的子集比任何其他模型都能更好地检测出分布外实例等。
Feb, 2023
通过对比研究和深度分析来评估各种最先进的方法对基于置信度的 OOD 检测的能力,并采用计算机视觉基准来复现和比较多种 OOD 检测方法。评估了它们在使用胸部 X 线进行疾病分类这一具有挑战性任务中的能力,结果表明在计算机视觉任务中高性能不直接转化为医学成像任务中的准确性,因此为开发下一代 OOD 检测方法提供了有用的见解。
Jul, 2021
本文探讨了图像标注中的 OOD 检测问题,并提出了评估模型性能的方法。此外,研究分析并展示了使用标题可能性得分来检测和拒绝 OOD 图像的有效性。
Jul, 2022
研究机器学习中如何确定训练分布和 ODD(Out-Of-Distribution)样本的检测机制,提出了一种基于 l2 范数的无需特定组件或训练的 ODD 鲁棒性证明的新方法以及改进了检测 ODD 攻击技巧的现有技术,在 CIFAR10 / 100 平均 OOD 检测度量方面相对于之前的方法有约 13%/ 5%的提高,并在分布内样本上提供高水平的认证和敌对鲁棒性。
Mar, 2023