关于完整的偏见注释

Feb, 2024

A Note on Bias to Complete

Jia Xu, Mona Diab

TL;DR在动态环境中重新审视偏见的定义，发现新的偏见类型（如社会地位），并描述它们与文化、地区、时间和个人背景等上下文的关系。我们的框架包括关于偏见的八个假设以及每个假设的减少偏见策略，以及作为解决方案的五种方法。该框架的实现尚未完成。

Abstract

Minimizing social bias strengthens societal bonds, promoting shared understanding and better decision-making. We revisit the definition of

social bias societal bonds shared understanding better decision-making minimizing bias strategy

发现论文，激发创造

直接问 LLMs：“是什么塑造了你的偏见？”：评估大型语言模型中的社会偏见

社会偏见在大型语言模型中是由各种人口统计学特征的目标的社会感知的积累所塑造的。为了全面理解大型语言模型中的这种社会偏见，必须考虑到各种身份认同之间多元观点下的社会感知。本文旨在研究各种视角的社会感知如何影响大型语言模型中社会偏见的发展。为此，我们提出了一种直观量化这些社会感知的新策略，并提出了可以通过汇集多样化的社会感知评估大型语言模型中社会偏见的度量标准。实验结果通过检查社会感知定量地展示了大型语言模型中的社会态度。我们进行的分析表明，我们提出的度量标准捕捉到了社会偏见的多维方面，从而实现了对大型语言模型中偏见的细致全面的调查。

Jun, 2024

走向一种整体方法：通过跨学科视角理解自然语言处理模型中的社会人口偏差

快速增长的自然语言处理在各种社会技术解决方案中的使用和应用突显了对偏见及其对社会的影响的全面理解的需求。虽然 NLP 中的偏见研究得到了扩展，但仍存在一些需要关注的挑战，包括有限地关注种族和性别以外的社会人口偏见、主要集中在模型上的狭窄分析范围，以及技术为中心的实施方法。本文解决了这些挑战，并倡导一种更加跨学科的方式来理解 NLP 中的偏见。该工作分为三个方面，每个方面探索 NLP 中的特定偏见方面。

Aug, 2023

探索并缓解语言模型中的社会偏见

为了提高语言模型的公正性，本文提出了多项定义并给出了新的测试和度量方式，旨在减少机器学习在文本生成过程中对性别、种族、语言宗教等社会构建的刻板印象所带来的负面影响。实证结果和人工评估表明，该方法能够在文本生成中减少偏见同时保留重要的上下文信息。

Jun, 2021

研究诗歌创作系统中的社会偏见

本研究旨在探讨如何在诗歌创作系统中进行下一个诗句建议检索时减轻社会偏见，并通过情感风格转换的数据增强方法，为减轻社会偏见提供了潜在的解决方案。

Nov, 2020

自然语言处理中社会人口统计信息偏差调查

本篇论文调查了 209 篇关于自然语言处理模型中的偏差的论文，提出了社会人口统计学偏见的定义，并确定了研究偏见的三个主要类别：偏见类型，偏见度量和去偏见。作者总结说，目前的去偏见技术是肤浅的，不能真正消除偏见；最后提供了未来工作的建议。

Jun, 2023

社会偏见探测：语言模型的公平性基准测试

本研究提出了一种新的框架，用于探索语言模型中的社会偏见，通过采集探索数据集和利用一种新的公平性评分方法，发现语言模型中的偏见更加复杂，并揭示不同宗教身份导致各种模型中最明显的不平等处理。

Nov, 2023

评估流程中的偏见：基于优化的模型

在评估过程中，存在与个体的社会显著属性相关的偏见，我们将评估过程视为将个体对任务的真实效用分布转化为观测分布的转换，并将其建模为在信息约束下的损失最小化问题的解决方案。我们的模型有两个参数，被确定为导致偏见的因素：信息约束中的资源 - 信息权衡参数和损失函数中的风险规避参数。我们表征了从我们的模型中出现的分布，并研究了参数对观测分布的影响。我们通过拟合真实世界数据集来验证我们的模型，并使用它来研究在下游选择任务中干预的效果。这些结果有助于理解评估过程中偏见的出现，并提供指导部署干预措施以减轻偏见的工具。

Oct, 2023

自然语言处理中偏见相关性及其缓解方法的研究

本文通过研究 NLP 模型中三个社会身份（种族、性别和宗教）之间的偏见相关性，提出在对偏见进行改善时需要综合考虑相关的偏见，而不是各自分开处理，以引导更多相关研究

May, 2022

社会偏见框架：推理语言的社会和权力含义

本研究提出了一种名为 “社会偏见框架” 的新的概念形式化模型，以模拟人们如何将社会偏见和刻板印象投射到其他人身上的框架，并建立了一个名为 “社会偏见推理语料库” 的数据集来支持大规模建模和评估，分析表明当前最先进的神经模型虽然能够高效地对是否含有不良社会偏见进行分类，但在详细解释社会偏见框架方面并不有效。本研究为今后的研究工作提供了指导，即将结构化的语用推理与社会影响的通识推理相结合。

Nov, 2019

新闻分析中的点点滴滴：媒体偏见与框架的跨学科调查

新闻报道中的偏见表现和影响是社会科学的核心主题，近年来在自然语言处理领域受到了越来越多的关注。本研究综述了社会科学的方法，并将其与自然语言处理领域中用于分析媒体偏见的典型任务表述、方法和评估指标进行了对比。我们讨论了开放性问题，并提出了可能的研究方向，以填补理论与预测模型之间及其评估之间的差距。这些包括模型透明度、考虑文档外部信息以及跨文档推理而非单一标签的分配。

Sep, 2023