关注偏差:针对上下文语言模型的偏差检测方法的关键回顾
研究发现使用 LSTM 架构训练的语言模型在表示性别时存在动态变化,并且性别信息逐渐局部化。通过监控训练动态,可以检测到女性和男性在输入嵌入中的表示不对称。去除偏见的策略如何应用需要更多深入探讨。
Jul, 2022
为了提高语言模型的公正性,本文提出了多项定义并给出了新的测试和度量方式,旨在减少机器学习在文本生成过程中对性别、种族、语言宗教等社会构建的刻板印象所带来的负面影响。实证结果和人工评估表明,该方法能够在文本生成中减少偏见同时保留重要的上下文信息。
Jun, 2021
本研究使用基于 BERT 模型的集成模型在 Wiki 中性语料库上进行了全面实验,从而检测到了主观偏见,并提出了比 BERT large 更具先进性的方法,F1 得分上升了 5.6%。
Feb, 2020
媒体偏见检测需要综合多个新闻来源的信息,以句子级别的政治偏见检测为例,通过考虑上下文中的偏见而进行的任务被证明是一项具有挑战性的任务。我们提出了一种更加小心地搜索上下文的技术,采用偏见敏感和目标感知的数据增强方法,通过与 BERT 等预训练模型的结合,在著名的 BASIL 数据集上进行了综合实验,取得了 58.15 的 F1 得分,明显优于先前方法的最新偏见检测任务。
Oct, 2023
本文分析了最先进的语境词表示模型,如 BERT 和 GPT-2,对于性别,种族和交叉身份认同的偏差情况,并提出了一种新颖的方法对词语级别上的偏差进行评估。
Nov, 2019
大型语言模型中的社会偏见评估和缓解技术的综述,介绍了社会偏见与公平的概念、评估指标和数据集,以及介绍了干预方法的分类和研究趋势,帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。
Sep, 2023
本研究基于模板方法提出了一种量化 BERT 中偏见的方法,并且通过性别代词解析的案例研究证明了该方法在捕捉社会偏见方面的优越性,同时也指出了该方法的普遍适用性,包括在多类别设置中使用的种族和宗教偏见。
Jun, 2019
本研究探索了大语言模型的嵌入和几何模型对偏见建模准确度的影响,利用 RedditBias 数据库分析文本偏见,在偏见分类上,BERT,尤其是迷你 BERT,表现出色,而多语言模型则表现较差。研究建议改进单语模型,并探索领域特定的偏见。
Nov, 2023
本研究提出了一种新的框架,用于探索语言模型中的社会偏见,通过采集探索数据集和利用一种新的公平性评分方法,发现语言模型中的偏见更加复杂,并揭示不同宗教身份导致各种模型中最明显的不平等处理。
Nov, 2023