针对数据集偏差的 CNN 表示研究

AAAIOct, 2017

Examining CNN Representations with respect to Dataset Bias

Quanshi Zhang, Wenguan Wang, Song-Chun Zhu

TL;DR本研究提出了一种简单而有效的方法来诊断 CNN 的特征表示，以发现由数据库偏差引起的表示缺陷和失败模式，并使用隐含属性关系和基础真相关系进行比较来挖掘潜在关联性。实验表明该方法的有效性。

Abstract

Given a pre-trained cnn without any testing samples, this paper proposes a simple yet effective method to diagnose feature representations of the CNN. We aim to discover representation flaws caused by potential <

pre-trained cnn feature representations dataset bias attribute relationships blind spots

发现论文，激发创造

深入探讨数据集偏差

本文通过研究不同表示下的现有去偏方法的表现，旨在验证在面临数据集偏差问题时使用 DeCAF 特征的潜力，并就数据集偏差问题的哪些方面是已经解决的，哪些方面是需要解决的进行分析。

May, 2015

评估图像分类中的偏差

本研究通过使用归因地图的方法，系统性地揭示数据偏差，从而证明了某些归因地图技术比其他技术更好地凸显了数据中的偏差，并且度量可以支持发现偏差。

Jul, 2021

忽视偏见：从深度神经网络嵌入中明确移除偏差和变异

通过算法和祖源数据库的使用，可以提高神经网络在极度偏斜的数据集上的分类准确性，并消除与数据集相关的偏见和变异。

Sep, 2018

揭示模型偏差：通过采样还原分析评估深度神经网络

本文提出了一种简单和经济有效的方法来评估深度神经网络是否依赖于训练样本的主要概念，或者只是学习区分类别的简单而无关紧要的特征。该方法通过恢复模型参数并分析重构质量来确定模型是否学习了所需的训练数据特征且不存在偏差。

Jun, 2023

透过公平的镜子：减少图像数据集中的偏差

本研究通过重构和最小化预期变量之间的统计相依来解决图像训练数据偏见的问题，使用包含 U-net 和预训练分类器的架构，将所提出的模型与最新的去偏见方法进行了对比，并展示了模型的公正性 - 准确性组合。

Sep, 2022

通过无监督预训练学习的图像表示包含类人偏差

本文通过研究基于大规模未标记图像数据的机器学习方法，并发现其可能对种族，性别，体重，残疾和少数种族存在的偏见和刻板印象进行了分类和嵌入，从而证明了这些模型可能会自动学习社会偏见。

Oct, 2020

基于 CNN 的联合聚类和特征漂移补偿的大规模图像数据表示学习

本文提出了一种基于卷积神经网络的迭代式聚类算法，采用 k-means 对图像进行聚类标签分配，结合特征漂移补偿机制以优化聚类精度和存储复杂度，并在大规模图像集上超越了现有算法的性能。

May, 2017

无监督学习伪属性去偏表示

该论文提出了一种简单且有效的无监督去偏差技术，该方法利用聚类算法在特征嵌入空间识别伪属性，然后采用一种新颖的聚类加权重新调整方案来学习去偏置表示，以防止少数群体被忽视并达到最坏情况下的概括，实验证明其在多个标准基准测试数据集上具有出色的表现，甚至达到了有监督对照组的竞争精度。

Aug, 2021

CNN Filter DB: 训练卷积过滤器的实证研究

本文研究的是卷积神经网络的权重分布偏移对于预训练模型的稳健性的影响，提出了一个包含超过 14 亿卷积滤波器的数据集，并通过分析数据集展示了现有预训练模型的一些局限性。

Mar, 2022

利用模型解释探究图像分类中的偏差

本文通过突出有歧视的特征从而消除对敏感属性的依赖来评估模型解释是否能够高效检测图像分类中的偏见，发现模型解释的弱点在于难以准确评估偏见程度、可能引入额外的偏见分析并且有些情况下效率不高。

Dec, 2020