利用模型解释探究图像分类中的偏差

Dec, 2020

Investigating Bias in Image Classification using Model Explanations

Schrasing Tong, Lalana Kagal

TL;DR本文通过突出有歧视的特征从而消除对敏感属性的依赖来评估模型解释是否能够高效检测图像分类中的偏见，发现模型解释的弱点在于难以准确评估偏见程度、可能引入额外的偏见分析并且有些情况下效率不高。

Abstract

We evaluated whether model explanations could efficiently detect bias in image classification by highlighting discriminating features, the

发现论文，激发创造

本文针对深度学习模型在图像分类中忽略主体目标的问题，提出了一种基于前景引导的分类器学习方法，在损失函数和架构组件方面作出一些修改，加强分类器对主体目标的关注并在基准数据集上测试，结果表明该方法可以提高图像分类器的识别准确性。

Jul, 2023

该研究通过一个众包实验，探讨解释机器学习模型的预测对人类是否具有帮助，并发现在给定特征系数的情况下，人们能够更有效地对线性词袋模型进行操纵，但解释对 BERT 型分类器并没有显著提高操纵能力，而通过伪造 BERT 模型的线性模型的对全局归属的解释则可以有效地操作 BERT 型模型。

Dec, 2021

本文介绍了一种名为 Debiased-CAM 的多输入，多任务模型，通过辅助任务的训练，可以在不同偏差级别上恢复图像预测解释的忠实度，增强预测精度，并提供有用且准确的解释，以提高用户任务绩效。

Jan, 2022

AI 系统中的偏见可以通过解释来帮助人工智能团队应对这些偏见，提高决策公正性，但解释可能无法揭示间接偏见，需要通过模型偏见披露和代理特征相关性披露来改善模型公平性感知和决策公正性。

Oct, 2023

该研究介绍了解释性方法的评估问题，说明了评估中信仰偏见的重要性并提出了 NLP 从业者应该如何解决这一问题，同时通过基于梯度的解释性案例研究得到，在评估中考虑个体先验信仰的重要性。

Jun, 2021

机器学习算法越来越被用于组织的决策中，特征解释引入因果模型的语义，导致决策者的先验偏见泄漏，并产生确认偏见和决策结果的差异，从而导致次优和有偏的决策结果。

Jun, 2022

本文评估了不同的解释方法及其对神经网络和文本分类任务的影响，发现梯度基础的解释方法在不同任务及神经网络结构中表现最佳。

Sep, 2020

通过生成图像的方式来优化分类器结果、分析图像分类器的行为和决策、检测系统错误并可视化神经元，验证现有观察结果并发现新的错误模式或有害的虚假特征。

Nov, 2023

通过用户研究，本研究评估了可解释人工智能在实际场景中对人类决策的改进效果，结果发现虽然解释有助于用户更准确地描述模型，但对于模型选择和反事实模拟这两个任务，并没有找到使用任何显著改进的证据，这表明对基于显著性的解释的实用性和可能的误解需要谨慎对待。

Dec, 2023

该研究提出了一种系统性地识别模型中引起偏见的所有特征的方法，以帮助领域专家在决策过程中提供支持。通过评估四个知名数据集，展示了我们的贡献如何在开发、测试、维护和部署公平 / 公正的机器学习系统时推动标准程序。

Oct, 2023