关注偏差：针对上下文语言模型的偏差检测方法的关键回顾

Nov, 2022

关注偏差：针对上下文语言模型的偏差检测方法的关键回顾

Mind Your Bias: A Critical Review of Bias Detection Methods for Contextual Language Models

Silke Husse, Andreas Spitz

TL;DR本文为了解决公开领域语言模型中偏见检测的问题，就语境化语言模型偏见检测方法和静态单词嵌入偏见检测方法进行了严谨的分析和比较，发现了实现上的一些决策或错误对检测结果可能产生显著的影响，并提出了未来偏见检测方法更好、更健壮、更一致的方向。

Abstract

The awareness and mitigation of biases are of fundamental importance for the fair and transparent use of contextual language models, yet they crucially depend on the accurate detection of biases as a precursor. Consequently, numerous →

bias detection contextual language models word embedding implementation errors robustness

发现论文，激发创造

偏见的诞生：一项关于英语语言模型中性别偏见演变的研究

研究发现使用 LSTM 架构训练的语言模型在表示性别时存在动态变化，并且性别信息逐渐局部化。通过监控训练动态，可以检测到女性和男性在输入嵌入中的表示不对称。去除偏见的策略如何应用需要更多深入探讨。

Jul, 2022

探索并缓解语言模型中的社会偏见

为了提高语言模型的公正性，本文提出了多项定义并给出了新的测试和度量方式，旨在减少机器学习在文本生成过程中对性别、种族、语言宗教等社会构建的刻板印象所带来的负面影响。实证结果和人工评估表明，该方法能够在文本生成中减少偏见同时保留重要的上下文信息。

Jun, 2021

使用上下文化词嵌入向主观偏见检测迈进

本研究使用基于 BERT 模型的集成模型在 Wiki 中性语料库上进行了全面实验，从而检测到了主观偏见，并提出了比 BERT large 更具先进性的方法，F1 得分上升了 5.6%。

Feb, 2020

新闻中的目标感知背景政治偏见检测

媒体偏见检测需要综合多个新闻来源的信息，以句子级别的政治偏见检测为例，通过考虑上下文中的偏见而进行的任务被证明是一项具有挑战性的任务。我们提出了一种更加小心地搜索上下文的技术，采用偏见敏感和目标感知的数据增强方法，通过与 BERT 等预训练模型的结合，在著名的 BASIL 数据集上进行了综合实验，取得了 58.15 的 F1 得分，明显优于先前方法的最新偏见检测任务。

Oct, 2023

评估上下文词嵌入中的潜在性别偏见

在研究中，我们发现标准词嵌入即使经过去偏差处理，其性别偏差仍然很高，而上下文词嵌入则能够减少这种性别偏差，从而为自然语言处理应用提供更公正的结果。

Apr, 2019

评估情境化单词表征中的社会和交叉偏见

本文分析了最先进的语境词表示模型，如 BERT 和 GPT-2，对于性别，种族和交叉身份认同的偏差情况，并提出了一种新颖的方法对词语级别上的偏差进行评估。

Nov, 2019

大型语言模型中的偏见和公平性研究综述

大型语言模型中的社会偏见评估和缓解技术的综述，介绍了社会偏见与公平的概念、评估指标和数据集，以及介绍了干预方法的分类和研究趋势，帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。

Sep, 2023

测量上下文化词表示中的偏见

本研究基于模板方法提出了一种量化 BERT 中偏见的方法，并且通过性别代词解析的案例研究证明了该方法在捕捉社会偏见方面的优越性，同时也指出了该方法的普遍适用性，包括在多类别设置中使用的种族和宗教偏见。

Jun, 2019

文本中当前的拓扑和机器学习应用于偏见检测

本研究探索了大语言模型的嵌入和几何模型对偏见建模准确度的影响，利用 RedditBias 数据库分析文本偏见，在偏见分类上，BERT，尤其是迷你 BERT，表现出色，而多语言模型则表现较差。研究建议改进单语模型，并探索领域特定的偏见。

Nov, 2023

社会偏见探测：语言模型的公平性基准测试

本研究提出了一种新的框架，用于探索语言模型中的社会偏见，通过采集探索数据集和利用一种新的公平性评分方法，发现语言模型中的偏见更加复杂，并揭示不同宗教身份导致各种模型中最明显的不平等处理。

Nov, 2023