- 动态去偏:基于解释的人工监督机器学习系统决策
提出了一种新颖的在部署的机器学习系统中跟踪和纠正歧视的方法,它利用反事实解释来持续监测机器学习系统的预测,并标记歧视性结果,然后将与原始预测和反事实替代方案相关的后续解释呈现给人工审查者进行实时干预,从而实现公平和负责任的机器学习操作。
- 利用替代模型方法进行 XAI 的黑客攻击
最近几年,高度复杂人工智能系统的新应用数量大幅增长。算法决策系统 (ADMs) 是其中之一,其通过人工智能系统代替人类专家的决策过程。为确保此类系统的公平性和透明性,可解释人工智能 (XAI) 越来越重要。一种实现可解释性的变体是 surr - 你得是医生,林”:对大型语言模型在就业推荐中基于姓名的偏见的研究
社会科学研究表明,具有表明特定种族或性别的姓名的候选人在就业实践中经常面临歧视。 similarly, 大型语言模型 (LLMs) 在各种应用中展示了种族和性别偏见。在本研究中,我们利用 GPT-3.5-Turbo 和 Llama 3-70 - 测量和减轻具有多个受保护属性的表格数据中的偏差
提出了新的歧视衡量方法,并介绍了一种新的偏见减轻方法,实验证明了这种策略可以减少多个保护属性的数据集中的歧视。
- 公平性 - 准确性权衡:因果视角
机器学习系统可能基于性别、性别、宗教或种族等敏感特征表现出歧视行为,因此提出了各种公平性概念和量化歧视方法,并发展了构建公平预测器的众多方法。本研究首次从因果角度分析了公平性和准确性之间的紧张关系,提出了路径特定过量损失(PSEL)的概念来 - 揭露算法歧视:重新审视比较器的机会
通过表达因果推理方式,本文提出了两种基于不同因果干预方式的 comparators,分别为 ceteris paribus 和 mutatis mutandis comparator。我们主张使用 mutatis mutandis comp - 机器学习是否增加了额外的偏见?快速近似模型公平性
通过测量各种机器学习应用中的歧视水平,通过近似算法计算集合之间的距离以实现公平,提出了基于流形的 “谐波公平度量(HFM)” 和 “集合距离的近似算法(ApproxDist)”。
- ICML增加校准的一种通用后处理方法:压缩生存分布
本文介绍了一种利用合规回归方法改进模型校准而不降低判别能力的新方法,通过对 11 个真实数据集进行验证,展示了该方法在不同场景下的实际适用性和稳健性。
- 反向学习在具有影响力的双边市场中的应用
通过对劳动市场的平衡模型进行研究,我们发展了一种因果战略分类的表述,在这种模型中,战略代理人可以直接操纵他们的结果。作为应用,我们比较了预计劳动力战略反应和不预计劳动力战略反应的雇主。我们通过理论和实验的结合表明,具有表现最优的招聘政策的雇 - 中性谬误:算法公平干预何时 (不) 是积极行动
算法公平性干预常被解释为防止歧视而非积极行动措施,调研结果提出在算法决策和公平干预中,应该从不造成伤害的消极义务转向积极‘不造成伤害’的责任。
- 演化多目标优化在数据流中用于公平感知的自适应内存分类器
本文引入一种新颖的方法,即面向公平性自适应记忆分类器的进化多目标优化,旨在增强机器学习算法在数据流分类中的公平性。该方法通过将自适应记忆 K 最近邻算法的优势与进化多目标优化相结合,有效地处理流数据中的概念漂移,并同时最大化准确性和最小化歧 - 提升机器学习模型的公平性与性能:一种采用蒙特卡洛辍学和帕累托优化的多任务学习方法
本文考虑了机器学习中可推广的偏见缓解技术的需求,由于对公平性和歧视的担忧,这些技术在数据驱动的决策过程中得到了各个行业的应用。尽管许多现有的机器学习偏见缓解方法在特定情况下取得了成功,但它们常常缺乏可推广性,不能轻松地应用于不同的数据类型或 - 走向可解释聚类:基于约束声明的方法
我们提出了一种基于解释驱动的集群选择的解释可调的约束聚类方法,该方法能够生成高质量的且可解释的聚类,其中聚类结果考虑了特征的覆盖率和区分度,并能够整合领域专家知识和用户约束。
- 生成语言模型的非歧视标准
研究如何发现和量化生成语言模型中的性别偏见,并设计了针对职业性别刻板印象的标准,通过职业性别刻板印象的测试结果论证了这些标准在生成人工智能模型中的存在。
- 偏见与反复无常:度量大型语言模型中的社会歧视的统计框架
通过考虑大型语言模型的持久偏见和生成不一致性,我们在本文中提出了偏见 - 反复性框架(PCF),从而全面测量 LLMs 中的歧视行为。我们对 12 个常见 LLMs 应用我们的歧视测量框架,发现现代 LLMs 存在显著的男性偏见,并且 LL - 组条件缺失人口的公平风险
通过概率插值敏感特征并联合学习组条件缺失概率的变分自编码器,我们提出了公平感知分类模型,以解决隐私、法律问题和个体恐惧所导致的敏感特征全知要求的实际不可行性问题,我们的模型在图像和表格数据集上表现出较好的准确性和公平性平衡。
- U - 可信模型:决策中的可靠性、能力和信心
通过提出一种新的信任框架,基于概率框架和校准,并使用 AUC 指标进行评估,从而解决了关于预测模型中偏见和歧视的信任问题。
- 机器学习中缓解标签偏差:自信学习实现公平
通过筛选最公正的实例并扩展概率阈值的置信区间,结合共同教学范式以提供更可靠的选择,有效地减轻偏见标签带来的不良影响,我们的方法证明在促进公平和减少机器学习模型中标签偏见方面的有效性。
- 评估和减轻语言模型决策中的歧视
使用自然语言生成模型(LM)可能存在潜在的歧视风险,因此需要更好的方法来评估这些风险。本研究通过使用 LM 生成各种潜在的提示语句,并系统性地改变其中的人口统计信息,从而在各种社会决策场景中评估 LM 的潜在歧视影响。结果显示,在某些特定情 - 解决预训练语言模型中的偏见:当前趋势和被忽视的社会群体
预训练语言模型在当前和未来的创新中的好处和能力对任何社会都至关重要,然而,引入和使用语言模型会带来偏见和歧视,引发对平等、多样性和公平的关切,并需要解决。这项研究通过综述综合分析了识别和减轻语言模型中偏见的当前趋势和限制的技术,其中有关减轻