- BEADs:跨领域偏见评估
近期大型语言模型取得重大突破,显著增强了自然语言处理应用,但这些模型也可能继承和持续传播来自训练数据的偏见。为了解决这个问题,我们介绍了 Bias Evaluations Across Domains (BEADs) 数据集,旨在支持各种自 - 文本模型是否存在与性别相关语言无关的偏见?
研究通过建立一个新的框架 UnStereoEval(USE),来调查非刻板化场景下的性别偏见。结果发现,28 个测试模型中所有模型都存在较低的公平性,只有 9%-41% 的非刻板化句子表现出公正行为,这表明偏见不仅仅源自性别相关词的存在,这 - 基于分类的大型语言模型评估清单
通过引入人类知识进行自然语言干预,本研究探索了预训练语言模型的行为特征,以性别偏见为背景,通过问答评估了模型的一致性、偏见倾向、模型偏好和性别偏好切换,并提供了首个基于人类知识的大语言模型偏见评估数据集。
- GPTBIAS:评估大型语言模型中的偏差的综合框架
我们提出了一个名为 GPTBIAS 的偏见评估框架,它利用 LLMs 的高性能来评估模型的偏见,提供偏见分数以及包括偏见类型、受影响的人群、关键词和改进建议在内的详细信息,通过广泛的实验证明了该评估框架的有效性和可用性。
- 社会偏见探测:语言模型的公平性基准测试
本研究提出了一种新的框架,用于探索语言模型中的社会偏见,通过采集探索数据集和利用一种新的公平性评分方法,发现语言模型中的偏见更加复杂,并揭示不同宗教身份导致各种模型中最明显的不平等处理。
- 评估计算机视觉中的判别基础模型的公平性
我们提出了一种用于评估具有歧视性基础模型(如相互对比语言预训练模型)的偏差的新分类方法,并根据该分类方法系统评估了现有的缓解这些模型偏差的方法。我们针对 OpenAI 的 CLIP 和 OpenCLIP 模型对关键的应用进行了评估,例如零样 - 大型语言模型中的偏见和公平性研究综述
大型语言模型中的社会偏见评估和缓解技术的综述,介绍了社会偏见与公平的概念、评估指标和数据集,以及介绍了干预方法的分类和研究趋势,帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。
- 同情 AI 伤害评估过程的协同塑造
通过参与式研讨会我们了解到边缘群体在审计过程中对偏见赏金的所有权、激励和有效性等方面的关切,从而得出了支持社区所有权并结合参与式进程的结论。
- 掩盖语言模型和下游情感分类任务中对 93 个受污名化群体的偏见
本研究旨在通过检测自然语言处理中的倾向性,确定人工智能模型的偏见和风险,并揭示这些模型对社会中处于弱势地位、受到歧视的群体的影响。结果表明,预训练的 MLMs(Masked Language Models)和他们的下游情感分类器存在着对社会 - 揭示与量化代码生成中的社交偏见
研究了预训练代码生成模型中的社交偏见问题,提出了一种新的方法来构建代码提示,以量化生成代码中的社交偏见严重程度并找出不同人口群体之间的细微差异,并分析得出低社交偏见的代码生成模型选择的有用见解。
- ACLCHBias:中文对话语言模型的偏见评估与缓解
本文介绍了一个新的中文数据集 CHBias,用于对中文会话语言模型进行偏见评估和缓解。试验结果表明,使用该数据集的去偏执方法可以减少生成具有社会偏见的文本,同时保持模型的对话功能。
- EMNLP基于语法多样性提示的鲁棒自然语言生成偏差评估
通过使用不同的语法结构,本文提出了一种鲁棒的自然语言生成系统偏见评估方法,其结果显示采用语法多样性的提示可以实现更鲁棒的 NLG(偏见)评估。
- 使用反事实推论的因果视角评估和缓解图像分类器中的偏差
该研究提出了一种利用结构原因模型和 ALI 生成对抗学习算法,生成能满足图像属性之间因果关系约束的反事实例,用于解释和评估神经网络模型的偏差,并使用反事实正则化方法消除分类器训练数据中对皮肤和头发颜色等多维属性的偏见。
- ECCVECCV 2020 的 FairFace Challenge:分析人脸识别中的偏见
本文总结了 2020 年 ChaLearn Looking at People Fair Face Recognition and Analysis Challenge 的评测结果和优胜解决方案,并提供了对结果的分析。这个比赛的目的是评估提 - 自然语言语料库所自动生成的语义带有类似人类的偏见
这份研究首次展示,应用标准机器学习到日常语言时会形成类似于人类的语义偏见,同时该研究还提供了用于评估文本偏见的新方法。