消除混淆偏差的聚类分析

Nov, 2023

Sanitized Clustering against Confounding Bias

Yinghua Yao, Yuangang Pan, Jing Li, Ivor W. Tsang, Xin Yao

TL;DR本文提出了一种名为 Sanitized Clustering Against confounding Bias（SCAB）的新型聚类框架，通过非线性依赖度量在复杂数据的语义隐空间中消除混淆因素，从而消除了复杂应用中数据与混淆因素之间的偏差，通过移除混淆偏差显著提高了聚类性能。

Abstract

Real-world datasets inevitably contain biases that arise from different sources or conditions during data collection. Consequently, such inconsistency itself acts as a confounding factor that disturbs the

biases cluster analysis confounding factor clustering framework latent space

发现论文，激发创造

分类任务的常识偏见发现与缓解

基于图像描述提取特征聚类的框架，发现数据集中的敏感关联性，通过调整图像采样权重减轻下游模型偏差问题。

Jan, 2024

检测和纠正多站神经影像数据集中的偏见

本研究探讨了在神经影像学中处理数据集偏差的方法，通过结合 17 项研究的 35320 个磁共振成像脑图像来研究偏差，并提出数据集谐波化的方法以消除偏差及控制混淆因素。

Feb, 2020

用于现实世界异常分类的潜在空间群集调节

自动驾驶领域的异常是自动驾驶车辆大规模部署的主要障碍。本研究聚焦于包含各种类型和尺寸的异常的城市场景的高分辨率摄像头数据。基于变分自动编码器，我们将其潜在空间设为条件，将样本分类为正常数据或异常数据。为了特别强调小的异常，我们进行了实验，在额外的输入中提供了差异图，并评估其对检测性能的影响。我们的方法将正常数据和异常数据分离到孤立的聚类中，同时还能重构高质量的图像，从而产生有意义的潜在表示。

Sep, 2023

改进数据集简化中的伪相关性

调研发现，数据集压缩过程中原始数据集中的颜色和背景偏差会被放大，而污染偏差会被抑制；为减少偏差放大，我们提出了一种基于样本重新加权方案的简单但高效方法，实证结果显示其有效性高于最先进的去偏方法。

Jun, 2024

无监督概念发现减轻虚假相关性

我们提出了一种用于减轻虚假相关的概念平衡技术，通过利用现有的物体为中心的表示学习方法，无需对子群进行人工标注，在水鸟、CelebA 和 ImageNet-9 基准数据集上进行评估并展示了优越或竞争性的性能。

Feb, 2024

潜空间中干扰变量的因果结构表示学习用于推荐

用户偏好、推荐系统、混淆因素、因果图和潜在空间是本研究的关键词，研究探讨了混淆因素对用户偏好的影响和如何在潜在空间中建模，通过因果图的方式分离混淆因素和用户偏好。最后，提出了基于变分自动编码器的模型，命名为潜在空间中混淆因素的因果结构表示学习 (CSC)，通过实验证明了该模型的优越性以及对混淆因素的可控性。

Nov, 2023

基于人工智能的医学影像关联分析，利用潜在空间几何混淆校正

通过强调语义特征解释和对多个混杂因素的鲁棒性，我们提出了一种人工智能方法来解决非线性模型的可视化挑战和混杂因素控制问题，并通过在合成数据集、3D 网格数据和 3D MRI 数据集上的测试，证实了该方法有效地减少混杂因素的影响，并提供独特的视觉表示，以突出与确定的相关性相关的特定图像变化。

Oct, 2023

C - 解缠：在混淆因素的归纳偏差下发现因果独立的生成因素

这篇论文通过引入共变量先验偏好，提出了一种名为 C-Disentanglement 的框架，用于识别因果生成因子，并在领域变化下取得了与各种 SOTA 基准方法相比具有竞争力的结果。

Oct, 2023

应用变分信息瓶颈和对比学习减少情感分析中的伪相关性

本文提出了一个名为 CVIB 的新型对比变分信息瓶颈框架，用于减少深度模型在输入特征和输出标签之间的虚假关联问题，并通过在原始网络和自剪枝网络之间使用对比学习来同时优化这两个网络。实验表明，该方法在整体预测性能、鲁棒性和泛化性等方面均优于强竞争对手。

Mar, 2023

消除伪关联中的去偏性反事实

在这项工作中，我们介绍了第一个端到端训练框架，该框架同时整合了（i）用于避免附着在假象相关性上的流行去偏置分类器（例如分布鲁棒优化（DRO））和（ii）用于揭示与任务相关的可推广成像标记的反事实图像生成。此外，我们提出了一种新的度量标准，即假象相关性附着分数（SCLS），用于量化分类器依赖假象相关性的程度，该程度由反事实图像揭示。通过对两个公共数据集进行全面实验（包括模拟和真实视觉伪迹），我们证明了去偏置方法：（i）能够学习到可推广的标记，并且（ii）成功忽略假象相关性，专注于潜在的疾病病理。

Aug, 2023