- MM通过人工智能实现公平:医疗信息中的偏见减少
本文提出了一个以医学、社会学和反种族主义为灵感的公平人工智能框架,定义了一个新词 bisinformation,鼓励研究人员研究它并使用 AI 研究、发现和减轻对社会中的少数群体造成的有偏见、有害的或虚假健康信息,进而改善患者的结果和福祉。
- ICLRDISSECT: 通过概念遍历进行解释的分离式同时解释
这篇论文提出了一种名为 DISSECT 的新方法,该方法可以有效地实现生成解释、概念解缠、反事实解释、可解释性和偏见检测等课题。该方法使用少量监督同时训练生成器、鉴别器和概念解缠器,通过生成分类器辨别信号的生成模型,能够自动发现分类器固有的 - 社交媒体上毒性建模中的跨地理偏见检测
本文提出了一种弱监督的方法来检测在更广泛的地理文化背景下的词汇偏见,通过公开获取的有毒检测模型案例研究,展示了我们的方法如何识别跨地理误差的显著群体,并展示这些分组如何反映这些地理背景下人类对攻击性和无攻击性语言的判断.
- 箱外偏见:流行生成语言模型中的交叉职业偏见的实证分析
本文通过分析 HuggingFace 最流行的文本生成模型之一 GPT-2 在职业关联方面的偏见来检测大型语言模型的偏见,数据采集基于模板,同时探讨了性别、宗教、性取向、族裔、政治立场和大陆名字起源等因素的影响。
- BiasFinder: 应用元测试生成揭示情感分析系统中的偏见
本文提出了一种名为 BisaFinder 的方法,通过元测试从大型语料库中提取文本,通过自动筛选适当的模板填充特定人口统计特征的占位符,然后使用这些文本进行偏差检测,结果表明 BisaFinder 可以有效地创建许多流畅且多样化的测试用例来 - 利用模型解释探究图像分类中的偏差
本文通过突出有歧视的特征从而消除对敏感属性的依赖来评估模型解释是否能够高效检测图像分类中的偏见,发现模型解释的弱点在于难以准确评估偏见程度、可能引入额外的偏见分析并且有些情况下效率不高。
- 我们无法测量的,我们就无法理解:追求公平中的人口统计数据采集挑战
研究发现算法公正性从业人员在实践中经常没有获取所需的人口统计数据,这带来了许多难题,其中包括如何平衡隐私与公平、如何定义相关的社会类别、如何确保意义上的同意以及私人公司是否可以推断某人的人口统计信息等,因此在使从业人员可以应对算法偏见方面, - 通过弱监督实现公平生成建模
本文提出了一种弱监督算法来克服深度生成模型中的数据集偏差,该方法通过额外的小型未标记参考数据集作为监督信号来探测现有数据集中的偏差,并学习生成模型。实验结果表明,该方法降低了基于潜在因素的偏差达到了高达 34.6%,在同时使用基于生成对抗网 - 利用声学、文本和元数据信息预测 YouTube 频道的主流政治意识形态
该研究通过构建多模数据集和深度学习算法,探讨了基于视频和音频进行新闻 YouTube 频道的政治意识形态预测问题,并在文本和元数据的基础上通过使用声音信号,将偏见检测能力提高了 6% 以上。
- CVPR检测意外偏差的图像反事实敏感性分析
本研究提出了一种名为图像反事实敏感性分析的框架,利用生成对抗网络建立一个面部图像的真实生成模型,以控制性地操作特定的图像特征,从而发现并检测面部分类器中的偏见和公平性。
- 公正胜于轰动:男性对医生的称呼与女性对医生的称呼相同
本文旨在探讨如何使用类比法检测自然语言嵌入的偏见问题,并分析类比法存在的固有问题,同时提出其他更合适的偏见检测方法。同时,本文指出类比法在检测偏见方面的局限性,以及其贡献和局限性。
- FairVis: 用于发现机器学习中交叉偏见的视觉分析
通过交互式可视化,FairVis 帮助数据科学家和普通公众发现机器学习中的偏差,从而了解和创建更具公平性的算法系统。
- xGEMs: 生成范例以解释黑盒模型
该研究提出了 xGEMs 框架,通过探索底层数据流形的景观,将黑盒分类器的行为进行了深入理解。它采用无监督的隐式生成模型来训练数据流形的代理。通过扰动沿流形的数据样本来定量总结黑盒模型行为。展示了 xGEMs 在检测和量化模型学习中的偏差, - 针对歧视的结果测试中基础边际问题
本研究提出了一种新的统计检验方法(即阈值检验),该方法通过使用分层贝叶斯潜在变量模型来同时估计决策阈值和风险分布,可以缓解基础边缘性问题即检测偏见时的潜在问题。使用这个测试,我们发现在北卡罗来纳州的 450 万次警察执法中,基础边缘性问题是