COOS 数据集和基准，用于测量图像分类器的外部样本泛化能力

Jun, 2019

COOS 数据集和基准，用于测量图像分类器的外部样本泛化能力

The Cells Out of Sample (COOS) dataset and benchmarks for measuring out-of-sample generalization of image classifiers

Alex X. Lu, Amy X. Lu, Wiebke Schormann, Marzyeh Ghassemi, David W. Andrews...

TL;DR通过使用显微镜图像，创建一个公共数据集来评估图像分类器的泛化能力，发现大多数分类器表现良好在类似于训练数据集的测试数据集上，但是它们不能泛化到具有更大协变量偏移的数据集上。

Abstract

Understanding if classifiers generalize to out-of-sample datasets is a central problem in machine learning. microscopy images provide a standardized way to measure the →

generalization capacity machine learning microscopy images covariate shifts image classifiers

发现论文，激发创造

COCO-O：自然分布偏移情况下的目标检测器基准测试

通过引入基于 COCO 的 COCO-O 测试数据集，研究了 100 多种现代目标检测器的鲁棒性效果，并发现了各种架构设计、数据增强和预训练技术对鲁棒性的影响。

Jul, 2023

基于深度神经网络编码模型的腹侧视觉皮层外分化能力基准测试

使用 DNN 编码模型预测视觉皮层神经元反应时，我们对其泛化能力进行了表征。通过收集来自猕猴颞下皮层的大规模神经群体反应数据集 MacaqueITBench，我们研究了分布转移对预测神经活动模型的影响。结果显示，分布转移对于预测神经元响应的模型性能有很大影响，并且预训练对象识别模型提取的图像表示之间的余弦距离是神经预测性的强预测因子。

Jun, 2024

环境和传感器领域的鲁棒性和超出分布的未探索面：协变量转换

计算机视觉应用中，现有的稳健性基准测试依赖于对数字图像的扰动，从而偏离了图像获取过程中发生的分布转变。为了弥合这一差距，我们引入了一个新的分布转变数据集 ImageNet-ES，该数据集由一个真实相机在一个可控实验环境中直接捕获的 202k 张图像组成。通过这个新数据集，我们评估了超出分布范围 (Out-of-Distribution, OOD) 检测和模型稳健性。我们发现，现有的 OOD 检测方法无法应对 ImageNet-ES 中的协变量转变，这意味着应重新审视 OOD 的定义和检测，以适应真实世界的分布变化。我们还观察到，通过学习环境和传感器的变化，模型在 ImageNet-C 和 - ES 方面都更加稳健，这是在现有数字增强的基础上的补充。最后，我们的结果表明，通过相机传感器控制有效地减轻转变可以显著提高性能，而无需增加模型大小。通过这些发现，我们的基准测试可能有助于未来关于计算机视觉稳健性、OOD 和相机传感器控制的研究。我们的代码和数据集可在此 https URL 找到。

Apr, 2024

基于框架的分类外分布检测基准及其在 ImageNet 上的应用

本文提出了一种用于评估图像分类器检测类别 - 分布外实例能力的新框架，并将该技术应用于 ImageNet 数据集，分析结果揭示了多个新观察，包括知识蒸馏能够一致提高分布外实例检测性能，ViTs 的子集比任何其他模型都能更好地检测出分布外实例等。

Feb, 2023

OOD-CV: 自然图像个体干扰鲁棒性的离群分布偏移基准

本文引入 OOD-CV 数据集，并发现某些干扰因素有更强烈的负面影响；当前的提高鲁棒性的方法只有微弱的效果，甚至可能削弱鲁棒性；我们的数据集提供了一个丰富的测试床，以研究鲁棒性，并有助于推进这一领域的研究。

Nov, 2021

面向实际场景的未知分布检测扩展

本研究探讨了基于大规模分类器和高分辨率图像的复杂场景下的异常检测，为未来真实世界的应用提供了新的基准，并发现简单的最大对数检测器在所有大规模多类别、多标签和分割任务中均优于之前的方法，成为未来工作的一个新基线。

Nov, 2019

基于基础模型的医学图像分割的域外鲁棒性

构建一个强健的模型，能够在分布转变的情况下有效地泛化到测试样本，在医学影像领域仍然是一个重要的挑战。本研究通过对基于自然图像和文本数据进行预训练的视觉和语言基础模型进行 fine-tuning 后的鲁棒性评估，证明了基于基础模型的优越性。此外，研究还开发了一种新的冻结模型的贝叶斯不确定性估计方法，并将其用作衡量模型在超出分布数据上性能的指标，对于实际应用具有显著的益处。实验不仅揭示了在自然图像应用中常用的线上准确性和线上一致性指标的局限性，还强调了引入贝叶斯不确定性的潜力，特别是低不确定性预测通常具有更高的超出分布性能。

Nov, 2023

OOD-CV-v2：自然图像中个体模糊的各类变化鲁棒性的扩展基准

我们引入了 OOD-CV-v2 数据集，其中包括了 10 个物体类别的姿态、形状、纹理、上下文和天气条件之外的分布数据，以提高图像分类、物体检测和 3D 姿态估计模型的鲁棒性性能。经过大量的实验，我们发现当前的提高鲁棒性方法只有微小的作用，并且可能会降低鲁棒性；同时，在卷积和 transformer 架构之间没有明显的差异。

Apr, 2023

基于置信度的越界检测：一项比较研究与分析

通过对比研究和深度分析来评估各种最先进的方法对基于置信度的 OOD 检测的能力，并采用计算机视觉基准来复现和比较多种 OOD 检测方法。评估了它们在使用胸部 X 线进行疾病分类这一具有挑战性任务中的能力，结果表明在计算机视觉任务中高性能不直接转化为医学成像任务中的准确性，因此为开发下一代 OOD 检测方法提供了有用的见解。

Jul, 2021

大规模天文调查中的样本外泛化：健壮网络学习相似表示

机器学习模型在处理来自未来天文调查的离域样本时依然面临挑战，解释性方法通过使用相似性度量来检查预训练卷积神经网络在中心核对齐方面的性能与表示相似性之间的关系，发现当模型对分布变化具有稳健性时，在离域数据上，图像在网络层之间的表示会有较大变化；然而，当模型无法泛化时，在离域数据上，这些表示在网络层之间的变化较小。讨论了这种相似性表示在模型设计、训练策略以及通过在训练过程中加入中心核对齐作为归纳偏差来缓解离域问题方面的潜在应用。

Nov, 2023