思考真实世界物体分类

ICLRMar, 2021

Contemplating real-world object classification

Ali Borji

TL;DR对深层模型在 ObjectNet 数据集上的表现及其在各种数据变化下的鲁棒性进行了研究，并发现将深层模型应用于对象而不是整个场景会显著改善性能，并且将对象区域限制在较小的范围内可提高准确性和鲁棒性。

Abstract

Deep object recognition models have been very successful over benchmark datasets such as ImageNet. How accurate and robust are they to distribution shifts arising from natural and synthetic variations in datasets? Prior research on this problem has primarily focused on ImageNet variati

deep models object recognition distribution shifts objectnet dataset robustness

发现论文，激发创造

ObjectNet 数据集：重新分析与更正

通过将物体识别器应用于包含多个物体的场景而非孤立物体，我们发现在 ObjectNet 数据集中可以获得约 20-30％的性能提升。相比于 ObjectNet 文献中报告的结果，我们观察到可以恢复约 10-15％的性能损失，无需进行任何测试时间数据增强。然而，正如 Barbu 等人的结论一样，深度模型在该数据集上表现明显不佳。因此，我们认为 ObjectNet 仍然是测试模型广义性能的具有挑战性的数据集。

Apr, 2020

增强物体检测可靠性：一种基于合成和自然扰动的方法

本研究针对物体检测模型在实际应用中所面临的实际分布转移困境，探讨了通过模拟自然干扰（如光照、模糊和亮度的变化）及相应的数据增强技术来评估和提高模型的鲁棒性。经过综合的剖析研究及实验，发现使用数据增强技术中的合成干扰可以有效提高模型的鲁棒性，并提供了相应的实测核实数据及有价值的洞察力。

Apr, 2023

图像分类模型自然分布偏移鲁棒性测量

本研究评估了 204 个 ImageNet 模型在 213 个不同的测试条件下的表现，发现大多数当前技术无法提供对真实数据中分布变化的健壮性，唯一例外的是在较大且更多样化的数据集上进行训练可以在多种情况下提高健壮性，并且我们的研究表明当前真实数据中的分布变化是一个开放的问题。

Jul, 2020

物体识别基准的进展是否改善了现实世界的泛化能力？

通过对全球家庭物品的两个数据集进行广泛的实证评估，我们首先确定了标准基准和现实世界地理转变之间的进展差距，接着通过测量不同地区性能的差异，研究了模型在地理上的泛化能力，并发现了地理差异的增加是传统基准进展的副作用。最后，我们强调了在更具代表性的数据上重新训练简单的最后一层如何作为未来工作的有希望的方向，使得两个基准测试的地理差异减少了三分之二以上。

Jul, 2023

将域随机化应用于合成数据以进行目标类别检测

本文探讨了在具有特定应用领域的少量标记图像的情况下，使用人工合成的数据可以更好地代替 fine-tune 预训练网络，并展示了随机化流程中不同组件的个体贡献。

Jul, 2018

对扩散合成目标的神经网络稳健性进行基准测试

我们建立了视觉感知稳健性的严格基准，通过合成图像进行评估，引入了生成模型作为数据源来合成具有多样化背景、纹理和材料的困难图像，该基准称为 ImageNet-D，实验结果表明 ImageNet-D 对于多种视觉模型都导致了显著的准确率下降。

Mar, 2024

通过生成数据集实现强健分类：让现实留给想象

本文研究了生成数据集对图像分类器自然鲁棒性的影响，发现与标准训练和流行的数据增强策略相比，使用真实数据和生成数据相结合进行训练可以提高 Imagenet 分类器的准确性和鲁棒性，同时分析了不同因素对结果的影响，并介绍了 ImageNet-G-v1 数据集。

Feb, 2023

人类和机器对极端图像变换下的物体识别的鲁棒性

该论文探讨了神经网络架构在解决视觉任务时存在的局限性，与人类学习抽象概念的策略不同。研究利用一组新的图像转换方法，对人类和网络在对象识别任务上进行了评估，发现常见网络的性能迅速下降，而人类能够以高精度识别对象。

May, 2022

人类与深度神经网络的泛化能力

通过对三种著名的深度卷积神经网络在十二种不同的图像失真下的实验对比，研究表明，与这三种人工智能算法相比，人类视觉系统在几乎所有的测试图像处理中都更加鲁棒，其误差模式渐行渐远。本文还证明了，利用失真图像直接训练的深度学习神经网络在恰当的测试条件下，表现优于人类。然而，当被分别用于测试不同类型的失真图像时，它们的泛化能力极差，无法适应噪声分布的变化，这成为深度学习视觉系统所面临的关键挑战，可用一种终身机器学习的方法进行系统化解决。

Aug, 2018

图像分类器是否具有时间上的泛化能力？

本文研究图像分类器对视频时序扰动的鲁棒性。我们构建了两个数据集，ImageNet-Vid-Robust 和 YTBB-Robust，包含 57,897 张图像，分为 3,139 组感知相似图像，并对其进行了重新注释以进行相似性分析。我们评估了各种经过 ImageNet 预训练的分类器，结果显示在两个数据集上的中位分类准确性分别下降了 16 和 10。此外，我们还评估了三个检测模型，并显示自然扰动会引起分类和定位误差，导致检测 mAP 中位数下降 14 个点。我们的分析表明，视频中自然发生的扰动对于在需要可靠和低延迟预测的环境中部署卷积神经网络是一个实际而重大的挑战。

Jun, 2019