粗略种族数据掩盖了临床风险评分表现差异
研究发现机器学习(ML)模型可以从患者病历中识别患者的种族信息,即使这些信息被删除,而人类专家则不能准确预测患者的种族信息。此外,研究还展示了在这些种族信息被删除的病历上训练的 ML 模型可能在临床治疗决策中继续保持现有的偏见。
May, 2022
本论文探讨了在对乳腺密度评估中发现患者人口统计特征和数据采集亚组的差异性,使用认识不确定性可以用于评估差异性,并得出,即使集体表现相似,不确定性量化指标的选择也可以在亚组水平上产生显著的不同。本研究希望促进如何利用不确定性提高机器学习应用程序的透明度,以便在临床部署中更加有效地检测和评估子组不平等。
Jul, 2021
该研究探讨了使用机器学习指导临床决策可能加剧现有的健康差距问题的潜力,并分析了算法公平的适用性、技术限制以及与机器学习在医疗保健中使用相关的社会技术背景。研究结果表明,在对各组之间的预测分布差异进行惩罚的情况下,几乎所有团体内的多项绩效指标都会降低,并且算法公平性方法在消除健康差距方面仍存在许多有待解决的问题。
Jul, 2020
针对自动化性别分类系统在不同种族和性别群体中存在的差异性,本文分析了深度学习算法中的架构差异和训练集不平衡等潜在差异性来源,并在两个大规模的公开数据集上进行了实验。实验结果表明,不同算法的分类表现存在一致性,而且黑种女性和黑种族总体的准确率最低,中东男性和拉丁女性的准确率大多数情况下更高。同时提出骨骼结构受基因和环境因素影响的面部形态差异可能是黑种女性表现不佳的原因。
Sep, 2020
本文呈现了通过定量和模拟建模分析使用系统动力学了解人工智能种族偏见和对健康不平等影响的结果和见解,并强调将数据和医疗保健讨论集中于人们及其医疗和科学体验,以及认识算法操作的社会背景的重要性,社区创伤的集体记忆是寻求治疗和体验有效治疗的内生驱动因素,这些因素对不同种族群体的初值条件具有明显的不平等性。
May, 2023
该研究通过私人和公共数据集评估使用深度学习模型识别医学影像中的种族,并确定模型是否具有推广性以及其他影响影像解释的人口特征,该研究的发现突出了模型使用个人报告的种族可能导致误分类的风险,存在潜在的风险需要进一步研究以解决。
Jul, 2021
通过对 9 种方法公平指标改进的性能进行基准测试,我们发现,相对于实现群体公平的方法,实现最差群体表现的方法并不能胜任在临床设置中对分类器公平进行改进,这一结果证实了对于在数据生成功能机制中存在歧视的机理的调查在临床环境中仍然具有实用性。
Mar, 2022
在医学影像方面,机器学习系统已经受到了广泛的关注。本文检查了最先进的深度学习分类器在从 X 光图像中产生诊断标签方面的性能偏差程度,发现在所有数据集,所有临床任务和所有子群体中都存在 TPR 差异。
Feb, 2020
在人工智能和算法公平性的文献中,种族多样性已成为越来越受关注的议题,然而鲜有关注对种族类别的选择进行合理化解释以及如何让人们置于这些选取的种族类别中。更少的关注度放在种族类别如何转变以及种族化过程如何随着数据集或模型的背景而改变。对于选取种族类别中包含的人群和他们如何置于这些类别中的不清楚理解,可能会导致对这些类别的不同解读。当真实的种族化过程和使用的种族类别的理解与实际不符时,这些不同的解读可能会引发伤害。如果种族化过程和使用的种族类别在所应用的背景中无关或不存在,也可能引发伤害。在本文中,我们进行了两方面的贡献。首先,我们演示了不明确假设和不合理解释的种族类别如何导致各种数据集的多样性,这些数据集无法很好地代表被这些种族类别混淆或未被代表的群体,以及如何导致模型在这些群体上表现不佳。其次,我们开发了一个框架 CIRCSheets,用于记录选择种族类别和进行种族化过程的假设,以促进理解数据集或模型开发者在选择或使用这些种族类别时所做的过程和假设的透明度。
Apr, 2024
通过使用深度学习模型,本研究在疾病诊断方面取得了重要进展,在使用胸部 X 射线上具有很大潜力。然而,这些模型中存在的固有偏见可能导致预测准确性在不同保护组之间存在差异。为了实现准确的诊断结果并确保在交叉组之间公平性,我们提出了一个框架,用于在高维胸部 X 射线多标签分类任务中实现公平性。该框架不仅考虑传统的受保护属性,还考虑了社会决定因素中的复杂交互作用,使得公平性的评估更加细致。我们提出了一种简单而强大的方法,通过使用跨组平衡的数据集来重新训练预训练模型的最后分类层。此外,我们还考虑了公平性约束,并在多标签设置中集成了类别平衡微调。我们在 MIMIC-CXR 数据集上评估了我们的方法,结果表明与基准方法相比,我们的框架在准确性和公平性之间实现了最佳权衡。
Mar, 2024