数据集偏差的十年战斗：我们已经到达目标了吗？

Mar, 2024

数据集偏差的十年战斗：我们已经到达目标了吗？

A Decade's Battle on Dataset Bias: Are We There Yet?

Zhuang Liu, Kaiming He

TL;DR我们重新审视了 Torralba 和 Efros 在十年前建议的 “数据集分类” 实验，这个实验在如今大规模、多样化且希望具有更高的数据集的新时代以及更强大的神经网络架构中进行。令人惊讶的是，我们观察到现代神经网络在分类图像来自哪个数据集的问题上能够达到极高的准确率：例如，在 YFCC、CC 和 DataComp 数据集的三类分类问题的验证数据上，我们报告了 84.7% 的准确率。我们的进一步实验表明，这样的数据集分类器可以学习到具有泛化性和可转移性的语义特征，而这不能简单通过记忆来解释。我们希望我们的发现能够激发社区重新思考涉及数据集偏差和模型能力的问题。

Abstract

We revisit the "dataset classification" experiment suggested by Torralba and Efros a decade ago, in the new era with large-scale, diverse, and hopefully less biased datasets as well as more capable neural network

dataset classification neural networks large-scale datasets biased datasets dataset bias

发现论文，激发创造

跨数据集分析测试平台

本文开展了针对视觉图像识别中数据集偏见问题的大规模分析，通过将 12 个已有数据库组织成一个语料库，提供了一个有用的特征储存库以供未来研究使用。

Feb, 2014

深入探讨数据集偏差

本文通过研究不同表示下的现有去偏方法的表现，旨在验证在面临数据集偏差问题时使用 DeCAF 特征的潜力，并就数据集偏差问题的哪些方面是已经解决的，哪些方面是需要解决的进行分析。

May, 2015

预测公平性的系统评估

研究偏见数据训练中的偏差的缓解方法，分析多种方法在不同数据条件下的性能表现，发现仅基于标准数据集进行评估的公平性研究实践存在局限性。

Oct, 2022

人类不确定性使分类更加健壮

本文通过训练具有反映人类知觉不确定性的完整标签分布来解决深度神经网络在泛化和鲁棒性方面存在的问题，并呈现了一个新的基准数据集 CIFAR10H。实验结果表明，基于该数据集的显式训练可以实现深度学习分类器具有人类的不确定性，并提高模型泛化性和抵御对抗攻击能力。

Aug, 2019

透过公平的镜子：减少图像数据集中的偏差

本研究通过重构和最小化预期变量之间的统计相依来解决图像训练数据偏见的问题，使用包含 U-net 和预训练分类器的架构，将所提出的模型与最新的去偏见方法进行了对比，并展示了模型的公正性 - 准确性组合。

Sep, 2022

监督深度卷积模型的单次适应

本文探讨了深度卷积神经网络是否能解决数据集偏差问题以及在新领域适应的方法，并且通过实验展示了在可视化领域适应数据集能提高深度模型识别性能。

Dec, 2013

思考视觉情绪：理解和克服数据集偏见

机器学习在视觉情感识别方面的应用具有很大的潜力，但目前的方法针对有限的视觉情感概念局限于小规模数据集上进行模型训练和测试。我们的分析确定了现有视觉情感基准测试中存在的一个长期被忽视的问题，即数据集偏见。基于我们的分析，我们提出了一个基于 Webly 监督方法的解决方案，通过利用大量的库存图像数据进行训练。我们发现，使用我们的大规模图像数据集学习的模型表现出了明显更好的泛化能力。此外，使用我们的方法学习得到的视觉表示在不同的图像和视频数据集上具有很大的潜力。

Aug, 2018

分析数据集偏差对深度人脸识别系统的影响的实证研究

利用合成的面部图像研究数据集偏差对深度卷积神经网络的泛化性能的影响，发现数据集偏差对 DCNNs 的泛化性能有着显著的影响，提出的方法允许观察和比较不同 DCNN 架构的泛化性能，同时揭示了当前 DCNN 架构的主要局限性。

Dec, 2017

视觉和语言研究中实现更公平的神经模型的去偏置方法：一份调查报告

在电脑视觉和自然语言处理领域中，神经网络虽然能够取得最新成果，但是其存在数据内的建模偏见，导致人工智能领域出现了公平性的研究方向，其目的为了纠正算法偏见，提出了几种基于公平性的神经网络去偏置的方法。

Nov, 2022

训练公平神经网络的技术挑战

机器学习算法已被广泛应用在各种领域，然而由此带来的公平性问题在高风险案例（如人脸识别和医学影像分析）中引起了极大关注。本文针对深度神经网络中公平性的限制条件及其行为矫正方法的有效性进行了研究，实验结果表明，在特定公平度量下，大型模型会对公平的过度拟合而产生一系列意外和不良后果。

Feb, 2021