关于上下文语言表示的内在公正性和外在公正性评估指标
本文比较了不同任务和实验条件下数百个已训练模型的内在和外在偏差度量标准之间的关系,发现这些度量标准在所有情况下都没有可靠的相关性。作者呼吁重点关注外在的偏差度量标准,并通过创建新的挑战集和注释测试数据使使用这些度量标准更加可行。在此基础上,作者发布了一份基于性别偏见的仇恨言论的代码、新的内部度量标准和一个注释的测试集。
Dec, 2020
本文提出了三个广义公平度量标准,系统分析了不同的参数选择如何导致公平度量方法之间的差异,以更好地了解和处理 NLP/ML 模型中的不公平性。
Jun, 2021
调查表明,对于预训练语言模型的公平度和偏见进行度量的大量指标之间的比较以及使用这些指标进行评估的工作仍然困难,如果不是完全不可能的。建议避免基于嵌入的指标,并专注于下游任务中的公平度评估,以提高未来的公平度比较和评估。
Dec, 2021
本文研究证明了在下游任务中模型性能和模型内部表示中的内在偏差之间的关系,并通过外部微调去除偏差,同时测量内在偏差,以评估其消除效果。通过两个任务和多种偏差度量的实验证明了内在偏差指标是评估去偏差效果的更佳指标,可以暴露浅表去偏差的情况,提供了一种更全面的 NLP 模型偏差研究框架和相关常用工具和资源。
Apr, 2022
本文探讨了内在的性别偏见缓解策略如何应用于下游的文本分类任务,发现单独使用这些内在策略并不能有效地缓解外在的偏见,建议采用其他公平性干预措施。
Jan, 2023
本文提出了一种对先前提出的内在性别偏见评估方法进行比较的方法,该方法不需要使用人工注释样例,而是通过使用自动挖掘的语料库中的男女性句子来创建多个偏置控制的 PLMs,并使用每个 PLM 评估内在性别偏见评估措施。实验表明,所提出的方法计算的偏见得分与用人工注释样例计算的结果相当。
Jan, 2023
该研究提出了一个灵感来自机器学习公平度量的公平性评估框架,可以应用于评估历史政策的公平性质,以及在设计新的(反事实)分配策略时加入约束,其工作总结指出:优先考虑弱势群体的政策通常会导致不同群体之间的不公平性结果,而同时考虑基线风险、治疗效果和群体身份的政策是可能是最公平的。
Dec, 2022
通过评估当前性别偏见评估范式并识别其中的一些缺陷,我们提出了一些更可靠的性别偏见评估指南,强调了衡量模型性别影响的外在偏差度量的重要性,并发现数据集和度量往往是相互耦合的,这是导致获取可靠结论能力受到阻碍的原因之一。
Oct, 2022
大语言模型带来了强大的性能和发展前景,并广泛应用于现实世界。然而,这些模型可能从未经处理的训练数据中捕捉到社会偏见,并将其传播到下游任务。本文全面回顾了关于大语言模型中的公平性的相关研究,介绍了中等规模的模型和大规模的模型分别从内在偏见和外在偏见的角度引入了评估指标和去偏方法,并讨论了公平性发展中的挑战和未来方向。
Aug, 2023
本文研究了自动机器翻译度量在句子级别(段落级别评估)中区分好的翻译和坏的翻译的可靠性,并研究了在较大平台中放置机器翻译组件的成功率检测中 MT 度量的有用性。我们在三个下游跨语言任务(对话状态跟踪,问题回答和语义分析)上评估了最广泛使用的 MT 度量(chrF,COMET,BERTScore 等)的段落级别性能。我们的实验表明,所有的度量标准与下游结果的内在评估显示出微不足道的相关性。我们还发现,神经度量提供的分数大多数不是可解释的,因为其值域未定义。我们的分析表明,将来的 MT 指标应该被设计成产生错误标签而不是得分,以便于外在评估。
Dec, 2022