DispaRisk: 数据集中不平等风险的评估和解释

May, 2024

DispaRisk: 数据集中不平等风险的评估和解释

DispaRisk: Assessing and Interpreting Disparity Risks in Datasets

Jonathan Vasquez, Carlotta Domeniconi, Huzefa Rangwala

TL;DR介绍 DispaRisk，这是一种新颖的框架，旨在在 ML 流程的初期阶段，主动评估数据集中差异的潜在风险。通过与公平研究中常用的数据集进行基准测试，我们发现 DispaRisk 能够识别具有高歧视风险、易受偏见影响的模型家族以及增加 ML 流程中歧视敏感性的特征。

Abstract

machine learning algorithms (ML) impact virtually every aspect of human lives and have found use across diverse sectors, including healthcare, finance, and education. Often, ML algorithms have been found to exacerbate s

machine learning algorithms societal biases disparisk fairness research ml pipeline

发现论文，激发创造

基于机器学习的医院再入院健康差异预测、诊断和缓解模型

研究探讨了使用机器学习方法提前预测糖尿病患者住院需求的重要性，同时阐述了在数据收集和模型预测中消除社会相关的数据偏差的必要性。该研究提出了一种机器学习流程，能够检测并缓解数据和模型预测中的偏差，从而获得更加公正的预测结果。实验证明，及时消除数据收集过程中的偏差可以得到更加公平的预测结果。

Jun, 2022

医疗公平性：分析机器学习对糖尿病患者再入院预测中的差异

通过比较深度学习、广义线性模型、梯度提升机（GBM）和朴素贝叶斯等模型，我们发现 GBM 在不同人口统计学特征（年龄、性别、种族）下，以 84.3% 的 F1 分数和 82.2% 的准确率准确预测糖尿病患者的住院再入院情况。GBM 在预测中减少了性别和种族之间的差异，其假发现率（FDR） (6-7%) 和假阳性率（FPR） (5%) 较低，且各年龄组（40 岁以下和 40 岁以上患者）的 FDR（4%）保持稳定，表明其精确性和减少偏见的能力。通过展示多种模型的准确度和公平性指标，该研究强调了在医疗保健中谨慎选择机器学习模型以确保准确性和公正性的重要性，从而促进个性化医学并确保公平的机器学习算法，最终减少糖尿病患者不同背景中的不平等，并改善结果。

Mar, 2024

在多个数据集偏差源存在时，调查 AI 算法的低诊断率

该研究通过对人群亚组之间的疾病分类器性能分析，发现低诊断率造成的表现差异引起了关注，进一步强调了在训练数据中嵌入的人类偏见可能会放大现有的健康差异，并探讨了评估模型公正性的一些困难。

Jan, 2022

现实世界深度学习应用中的模型选择差异影响

本文研究算法公平性中的偏见数据和人类偏好在模型选择中的作用，并通过真实医学影像数据的深度学习模型实证了模型比较指标的选择，特别是那些不考虑变异性，可能会对模型选择结果造成显着的偏差。

Apr, 2021

通过统计平等棱镜调查机器学习中的偏见 —— 以成人数据集为例

本文阐述了机器学习模型中出现偏见导致算法决策对特定群体或少数群体的歧视的问题，提出了公平学习问题的数学框架，运用标准差异影响指数量化偏见，最终检查了不同方法在二元分类结果中减少偏见的性能，并表明一些直观方法并不有效。这揭示了在训练观测结果包含偏见时，尝试制作公正的机器学习模型可能是一项特别具有挑战性的任务。

Mar, 2020

公平性指标在欧盟非歧视法律中的相容性：人口多样性平衡和条件人口差异

本研究旨在通过条件人口失调性 (CDD) 的公平性定义来评估公平度量和公平约束，在欧盟非歧视法律框架下支持公平上下文方法，并进行了数据分析，发现 AI 辅助决策在法律角度上具有公平性，取决于具体情况和法律理由。

Jun, 2023

机器学习中的公平性与医疗保健中的公平性相遇

本研究提出了一种基于软件工程原理的人工智能框架，用于在保证医疗保健公平的同时识别和缓解数据和模型中的偏见和歧视，通过案例研究表明数据中的系统性偏见会导致模型预测中的偏差增大，并提出了机器学习方法来预防这种偏见。未来的研究目标是在实际的临床环境中测试和验证所提出的 ML 框架，以评估其在促进健康公平方面的影响。

May, 2023

减少机器学习的影响差异是否需要治疗差异？

通过技术分析，本文认为透明的治疗不平等相对于其他方法更可取，以实现影响平等，这是通过算法决策制定的结果之一，并对几个真实数据集的实验结果进行了高亮度的实际影响。

Nov, 2017

临床风险预测公平机器学习的实证表征

该研究探讨了使用机器学习指导临床决策可能加剧现有的健康差距问题的潜力，并分析了算法公平的适用性、技术限制以及与机器学习在医疗保健中使用相关的社会技术背景。研究结果表明，在对各组之间的预测分布差异进行惩罚的情况下，几乎所有团体内的多项绩效指标都会降低，并且算法公平性方法在消除健康差距方面仍存在许多有待解决的问题。

Jul, 2020

将机器学习的公正性与公共卫生平等联系起来

本研究总结了关于机器学习公平性的基本文献，并提出了一个框架，用于识别和减轻数据和模型中的偏见，以实现更公正和公平的公共卫生机器学习模型。

Apr, 2023