Bias In, Bias Out?评估民间智慧
本文提出了通过从可允许的训练数据中去除保护变量的所有信息来消除预测模型偏见的方法,并将其应用于罪犯记录的数据集以产生种族中立的再逮捕预测方案,证明了将种族作为协变量省略的方式仍导致存在种族差异,并且证明了应用我们提出的方法可以将这些数据中的种族差异从预测中去除,并对预测准确性的影响最小。
Oct, 2016
机器学习算法应用于如信贷贷款或刑法司法等关乎人类生活方面的情境,其所基于的数据若含有人类偏见决策,则会产生人类偏见决策,拥有公平观念的机器学习是一种解决方案,但是如何实现公平面临着“多维面”等难题,要想在不同领域实现公平、公正,算法必须做到数据和开发者审查的透明化,在此基础上不断进行公平审计。
Jan, 2019
本文阐述了机器学习模型中出现偏见导致算法决策对特定群体或少数群体的歧视的问题,提出了公平学习问题的数学框架,运用标准差异影响指数量化偏见,最终检查了不同方法在二元分类结果中减少偏见的性能,并表明一些直观方法并不有效。这揭示了在训练观测结果包含偏见时,尝试制作公正的机器学习模型可能是一项特别具有挑战性的任务。
Mar, 2020
AI/NLP models trained on racially biased datasets demonstrate various types of bias, raising profound ethical implications regarding the impact of these models on user experience and decision-making due to the presence of racial bias features in datasets. The research implicates a negative influence on users' persuasiveness due to unexplainable discriminatory outcomes, calling for responsible AI frameworks within organizations.
Jan, 2022
该论文提出了一种基于变分自编码器的新方法,用于实现公平的决策制定,通过使用标记和未标记数据来学习无偏见的数据表示并在在线过程中使用这些表示来学习决策策略,实现了较低方差的最优(公平)政策,并比以前的方法提供了更高的公平性和效用。
May, 2022
本文提出了一种框架来生成具有特定类型偏差和它们的组合的合成数据,以分析在机器学习模型中存在的各种偏差,讨论它们与道德和正义框架的关系,并利用我们提出的合成数据发生器在不同场景中(包括存在不同偏差组合的场景)进行实验,因此分析了偏差对未减轻和减轻的机器学习模型的性能和公平度指标的影响。
Sep, 2022
通过使用一种新颖的模型不可知论证方法,本论文研究了为何一个个体的分类与其他相似个体不同,设计了一个定量论证框架来表示个体及其相似个体的属性-值对,并利用已知语义来识别对个体不同分类起到最大贡献的属性-值对,本方法在两个常用的公平性数据集上进行了评估,证明了其鉴定偏见的有效性。
Oct, 2023
我们介绍了 BiasBuster,这是一个旨在发现、评估和减轻大型语言模型中认知偏见的框架。通过在心理学和认知科学的前期研究基础上开发了一个包含 16,800 个提示的数据集,我们测试了各种减轻偏见的策略,并提出了一种使用大型语言模型来去偏置其自身提示的新方法。我们的分析提供了商业和开源模型中认知偏见存在及其影响的全面图片。我们证明了我们的自助去偏置方法能够有效减轻认知偏见,而无需为每种偏见类型手动制作示例。
Feb, 2024
本研究探讨了人工智能和机器学习在决策中替代人的过程,揭示了普遍认为算法能够公正无偏的观点实际上是错误的。文章识别了人们对算法偏见反应中的三种愤怒形式,并提出了解决这些偏见的三种实际方法,以促进人工智能社区的改进。研究发现,对于算法偏见的对话有助于推动更广泛的人工智能伦理讨论。
Sep, 2024