深入探讨数据集偏差

May, 2015

A Deeper Look at Dataset Bias

Tatiana Tommasi, Novi Patricia, Barbara Caputo, Tinne Tuytelaars

TL;DR本文通过研究不同表示下的现有去偏方法的表现，旨在验证在面临数据集偏差问题时使用 DeCAF 特征的潜力，并就数据集偏差问题的哪些方面是已经解决的，哪些方面是需要解决的进行分析。

Abstract

The presence of a bias in each image data collection has recently attracted a lot of attention in the computer vision community showing th

bias image data collection computer vision convolutional neural networks decaf features

发现论文，激发创造

透过公平的镜子：减少图像数据集中的偏差

本研究通过重构和最小化预期变量之间的统计相依来解决图像训练数据偏见的问题，使用包含 U-net 和预训练分类器的架构，将所提出的模型与最新的去偏见方法进行了对比，并展示了模型的公正性 - 准确性组合。

Sep, 2022

评估图像分类中的偏差

本研究通过使用归因地图的方法，系统性地揭示数据偏差，从而证明了某些归因地图技术比其他技术更好地凸显了数据中的偏差，并且度量可以支持发现偏差。

Jul, 2021

分析数据集偏差对深度人脸识别系统的影响的实证研究

利用合成的面部图像研究数据集偏差对深度卷积神经网络的泛化性能的影响，发现数据集偏差对 DCNNs 的泛化性能有着显著的影响，提出的方法允许观察和比较不同 DCNN 架构的泛化性能，同时揭示了当前 DCNN 架构的主要局限性。

Dec, 2017

针对数据集偏差的 CNN 表示研究

本研究提出了一种简单而有效的方法来诊断 CNN 的特征表示，以发现由数据库偏差引起的表示缺陷和失败模式，并使用隐含属性关系和基础真相关系进行比较来挖掘潜在关联性。实验表明该方法的有效性。

Oct, 2017

DeCAF：用于通用视觉识别的深度卷积激活特征

本文介绍了一种基于深度卷积网络提取特征的方法，该方法可以将原来应用于特定任务的深度卷积网络迁移到其他任务中，实现了在多个重要视觉挑战中超越现有技术的效果，并发布了开源工具 DeCAF 和所有相关网络参数。

Oct, 2013

使用 VAE 去偏置人脸检测系统

研究发现 AI/ML 系统中存在的偏差主要来源于数据集中过度再现的特征。该论文提出了一种基于生成模型的方法，通过学习潜在变量来减少偏差引起的威胁，算法可以帮助移除数据集中的偏差。两个数据集上的实验结果表明，该方法取得了良好的效果。

Apr, 2022

数据集偏差的十年战斗：我们已经到达目标了吗？

我们重新审视了 Torralba 和 Efros 在十年前建议的 “数据集分类” 实验，这个实验在如今大规模、多样化且希望具有更高的数据集的新时代以及更强大的神经网络架构中进行。令人惊讶的是，我们观察到现代神经网络在分类图像来自哪个数据集的问题上能够达到极高的准确率：例如，在 YFCC、CC 和 DataComp 数据集的三类分类问题的验证数据上，我们报告了 84.7% 的准确率。我们的进一步实验表明，这样的数据集分类器可以学习到具有泛化性和可转移性的语义特征，而这不能简单通过记忆来解释。我们希望我们的发现能够激发社区重新思考涉及数据集偏差和模型能力的问题。

Mar, 2024

监督深度卷积模型的单次适应

本文探讨了深度卷积神经网络是否能解决数据集偏差问题以及在新领域适应的方法，并且通过实验展示了在可视化领域适应数据集能提高深度模型识别性能。

Dec, 2013

使用分散的数据收集和激励措施解决人脸监测器中的偏见问题

本研究提出了使用混合多任务级联卷积神经网络和 FaceNet 嵌入来消除人脸检测模型对不同种族、性别和年龄群体的偏见，并在用户验证的分散化系统中进行模型重训练。

Oct, 2022

分类任务的常识偏见发现与缓解

基于图像描述提取特征聚类的框架，发现数据集中的敏感关联性，通过调整图像采样权重减轻下游模型偏差问题。

Jan, 2024