检测和纠正多站神经影像数据集中的偏见

Feb, 2020

检测和纠正多站神经影像数据集中的偏见

Detect and Correct Bias in Multi-Site Neuroimaging Datasets

Christian Wachinger, Anna Rieckmann, Sebastian Pölsterl

TL;DR本研究探讨了在神经影像学中处理数据集偏差的方法，通过结合 17 项研究的 35320 个磁共振成像脑图像来研究偏差，并提出数据集谐波化的方法以消除偏差及控制混淆因素。

Abstract

The desire to train complex machine learning algorithms and to increase the statistical power in association studies drives neuroimaging research to use ever-larger datasets. The most obvious way to increase samp

neuroimaging machine learning bias dataset harmonization confounding variables

发现论文，激发创造

运用因果推断量化神经影像数据集中潜在混淆偏差

本文提出一种通过利用来自多个数据集的成像数据来增加样本数量的方法，分析了通过简单汇集这些数据可能引入的偏差类型，提出通过量化因果推断中的混淆度和因果程度来区分因果和混淆因素的方法，并在实验中表明这种方法能有效地估计从真实脑成像数据中得出的合理因果关系。

Jul, 2019

分类任务的常识偏见发现与缓解

基于图像描述提取特征聚类的框架，发现数据集中的敏感关联性，通过调整图像采样权重减轻下游模型偏差问题。

Jan, 2024

面向医学影像人工智能的客观系统偏见评估

通过一种新的分析框架，我们展示了如何系统性、客观地研究医学图像中的偏见对人工智能模型的影响，并评估偏见缓解策略在性能差异方面的有效性，从而支持开发健壮、负责任的临床人工智能。

Nov, 2023

使用混合容量模型集成学习模型和排除数据集置偏

本文提出了一种检测和忽略数据集特异性模式的方法，采用高低容量模型的集成训练，以自动捕捉相对浅层的相关性，并确保两个模型学习不重叠的方法，以利于更好地泛化模式。

Nov, 2020

多个协变量偏移和不平衡的图像数据集汇集

通过范畴论的视角，本研究提出了一种简单而有效的解决方案，用于处理小样本量、数据集合并、协变量不平衡以及参数过多模型等问题，并通过实验验证了该方法的有效性。

Mar, 2024

基于人工智能的医学影像关联分析，利用潜在空间几何混淆校正

通过强调语义特征解释和对多个混杂因素的鲁棒性，我们提出了一种人工智能方法来解决非线性模型的可视化挑战和混杂因素控制问题，并通过在合成数据集、3D 网格数据和 3D MRI 数据集上的测试，证实了该方法有效地减少混杂因素的影响，并提供独特的视觉表示，以突出与确定的相关性相关的特定图像变化。

Oct, 2023

消除伪关联中的去偏性反事实

在这项工作中，我们介绍了第一个端到端训练框架，该框架同时整合了（i）用于避免附着在假象相关性上的流行去偏置分类器（例如分布鲁棒优化（DRO））和（ii）用于揭示与任务相关的可推广成像标记的反事实图像生成。此外，我们提出了一种新的度量标准，即假象相关性附着分数（SCLS），用于量化分类器依赖假象相关性的程度，该程度由反事实图像揭示。通过对两个公共数据集进行全面实验（包括模拟和真实视觉伪迹），我们证明了去偏置方法：（i）能够学习到可推广的标记，并且（ii）成功忽略假象相关性，专注于潜在的疾病病理。

Aug, 2023

透过公平的镜子：减少图像数据集中的偏差

本研究通过重构和最小化预期变量之间的统计相依来解决图像训练数据偏见的问题，使用包含 U-net 和预训练分类器的架构，将所提出的模型与最新的去偏见方法进行了对比，并展示了模型的公正性 - 准确性组合。

Sep, 2022

语言引导的未知数据集偏差检测与减轻

在这项研究中，我们提出了一种在没有先验知识的情况下通过关键词的部分出现来识别潜在偏见的框架，并进一步提出了两种去偏方法：(a) 通过指定伪标签将其传递给现有的需要先验知识的去偏方法，以及 (b) 通过文本到图像生成模型进行数据增强，使用获得的偏见关键词作为提示。实验结果表明，尽管简单，我们的框架不仅能在没有先验知识的情况下胜过现有方法，而且甚至可以与假设有先验知识的方法媲美。

Jun, 2024

跨数据集分析测试平台

本文开展了针对视觉图像识别中数据集偏见问题的大规模分析，通过将 12 个已有数据库组织成一个语料库，提供了一个有用的特征储存库以供未来研究使用。

Feb, 2014