关于随机种子对临床分类器公平性的影响
探究机器学习中算法跨不同组别表现差异的群体公平性的统计度量,发现这些度量在不同训练实例之间存在高方差,从而使得它们无法提供可靠的公平性实证评估。研究表明,群体公平性度量的方差来源于在少数群体上的学习过程的高波动性,而数据顺序的随机性被认为是主要的随机性源。基于这些发现,我们展示如何通过在单个时期改变数据顺序来控制群体级准确性(即模型公平性),高效并对模型整体性能影响微乎其微。
Jul, 2023
该研究探讨了使用机器学习指导临床决策可能加剧现有的健康差距问题的潜力,并分析了算法公平的适用性、技术限制以及与机器学习在医疗保健中使用相关的社会技术背景。研究结果表明,在对各组之间的预测分布差异进行惩罚的情况下,几乎所有团体内的多项绩效指标都会降低,并且算法公平性方法在消除健康差距方面仍存在许多有待解决的问题。
Jul, 2020
使用机器学习来减少公平性差异和确保准确性在真实世界中的平衡是政策制定者关注的问题,本文通过实证研究发现,在教育、心理健康、刑事司法和住房安全等领域中使用后期处理措施来解决公平性问题,能够显著提高公平性而不牺牲准确性,实现在政策中使用机器学习的目的。
Dec, 2020
通过对 9 种方法公平指标改进的性能进行基准测试,我们发现,相对于实现群体公平的方法,实现最差群体表现的方法并不能胜任在临床设置中对分类器公平进行改进,这一结果证实了对于在数据生成功能机制中存在歧视的机理的调查在临床环境中仍然具有实用性。
Mar, 2022
在二元决策过程中,一个机器学习分类器取代了多个人类,并引发了问题,我们讨论了在决策过程中多样性的损失。我们研究了在关注公平学习的情况下使用随机分类器集合而不是单个分类器可能带来的潜在好处,并展示了各种有吸引力的属性:(i)一组公平的分类器可以保证公平,适用于多种不同的公平度量,(ii)一组不公平的分类器仍然可以实现公平结果,(iii)分类器集合可以实现比单个分类器更好的准确性 - 公平性权衡。最后,我们引入了分布公平的概念,以更好地描述随机分类器集合的潜在好处。
Jun, 2017
本文探讨了在机器学习过程中常被忽略的数据预处理步骤 —— 数据填补,对医疗领域存在的偏见和影响较大的群体不平等性产生的影响,并提出了缓解不平等的建议。
Aug, 2022
本文提出使用数据增强方法减少自然语言处理中的性别偏见,并通过削减数据集中的例子提高模型的公平性,实验证明该方法在三个文本分类数据集上所实现的公平性优于数据增强方法。
Nov, 2022