关于完整的偏见注释
社会偏见在大型语言模型中是由各种人口统计学特征的目标的社会感知的积累所塑造的。为了全面理解大型语言模型中的这种社会偏见,必须考虑到各种身份认同之间多元观点下的社会感知。本文旨在研究各种视角的社会感知如何影响大型语言模型中社会偏见的发展。为此,我们提出了一种直观量化这些社会感知的新策略,并提出了可以通过汇集多样化的社会感知评估大型语言模型中社会偏见的度量标准。实验结果通过检查社会感知定量地展示了大型语言模型中的社会态度。我们进行的分析表明,我们提出的度量标准捕捉到了社会偏见的多维方面,从而实现了对大型语言模型中偏见的细致全面的调查。
Jun, 2024
快速增长的自然语言处理在各种社会技术解决方案中的使用和应用突显了对偏见及其对社会的影响的全面理解的需求。虽然 NLP 中的偏见研究得到了扩展,但仍存在一些需要关注的挑战,包括有限地关注种族和性别以外的社会人口偏见、主要集中在模型上的狭窄分析范围,以及技术为中心的实施方法。本文解决了这些挑战,并倡导一种更加跨学科的方式来理解 NLP 中的偏见。该工作分为三个方面,每个方面探索 NLP 中的特定偏见方面。
Aug, 2023
为了提高语言模型的公正性,本文提出了多项定义并给出了新的测试和度量方式,旨在减少机器学习在文本生成过程中对性别、种族、语言宗教等社会构建的刻板印象所带来的负面影响。实证结果和人工评估表明,该方法能够在文本生成中减少偏见同时保留重要的上下文信息。
Jun, 2021
本篇论文调查了 209 篇关于自然语言处理模型中的偏差的论文,提出了社会人口统计学偏见的定义,并确定了研究偏见的三个主要类别:偏见类型,偏见度量和去偏见。作者总结说,目前的去偏见技术是肤浅的,不能真正消除偏见;最后提供了未来工作的建议。
Jun, 2023
本研究提出了一种新的框架,用于探索语言模型中的社会偏见,通过采集探索数据集和利用一种新的公平性评分方法,发现语言模型中的偏见更加复杂,并揭示不同宗教身份导致各种模型中最明显的不平等处理。
Nov, 2023
在评估过程中,存在与个体的社会显著属性相关的偏见,我们将评估过程视为将个体对任务的真实效用分布转化为观测分布的转换,并将其建模为在信息约束下的损失最小化问题的解决方案。我们的模型有两个参数,被确定为导致偏见的因素:信息约束中的资源 - 信息权衡参数和损失函数中的风险规避参数。我们表征了从我们的模型中出现的分布,并研究了参数对观测分布的影响。我们通过拟合真实世界数据集来验证我们的模型,并使用它来研究在下游选择任务中干预的效果。这些结果有助于理解评估过程中偏见的出现,并提供指导部署干预措施以减轻偏见的工具。
Oct, 2023
本文通过研究 NLP 模型中三个社会身份(种族、性别和宗教)之间的偏见相关性,提出在对偏见进行改善时需要综合考虑相关的偏见,而不是各自分开处理,以引导更多相关研究
May, 2022
本研究提出了一种名为 “社会偏见框架” 的新的概念形式化模型,以模拟人们如何将社会偏见和刻板印象投射到其他人身上的框架,并建立了一个名为 “社会偏见推理语料库” 的数据集来支持大规模建模和评估,分析表明当前最先进的神经模型虽然能够高效地对是否含有不良社会偏见进行分类,但在详细解释社会偏见框架方面并不有效。本研究为今后的研究工作提供了指导,即将结构化的语用推理与社会影响的通识推理相结合。
Nov, 2019
新闻报道中的偏见表现和影响是社会科学的核心主题,近年来在自然语言处理领域受到了越来越多的关注。本研究综述了社会科学的方法,并将其与自然语言处理领域中用于分析媒体偏见的典型任务表述、方法和评估指标进行了对比。我们讨论了开放性问题,并提出了可能的研究方向,以填补理论与预测模型之间及其评估之间的差距。这些包括模型透明度、考虑文档外部信息以及跨文档推理而非单一标签的分配。
Sep, 2023