使用性别平等的损失函数减少单词级语言模型中的性别偏见

ACLMay, 2019

使用性别平等的损失函数减少单词级语言模型中的性别偏见

Reducing Gender Bias in Word-Level Language Models with a Gender-Equalizing Loss Function

Yusu Qian, Urwa Muaz, Ben Zhang, Jae Won Hyun

TL;DR本研究提出一种基于损失函数修改的去偏见方法，旨在平衡输出中男性和女性单词的概率；通过使用一系列偏差评估指标，我们提供实证证据表明我们的方法成功地减轻了语言模型中的性别偏见。与现有的去偏见策略，数据扩充和单词嵌入去偏见相比，我们的方法在多个方面，特别是在减少职业单词中的性别偏见方面表现更好。最后，我们介绍了一种数据扩充和我们方法的组合，并展示它在所有偏差评估指标中表现出优于现有策略的效果。

Abstract

gender bias exists in natural language datasets which neural language models tend to learn, resulting in biased text generation. In this research, we propose a →

gender bias neural language models debiasing approach loss function modification data augmentation

发现论文，激发创造

识别和减少单词级语言模型中的性别偏见

本研究以性别为例，用度量方法描述了文本语料中的社会问题偏差。提出了语言模型的正则化损失项以减少性别偏差，最终在多个语料库中验证了该方法的有效性。

Apr, 2019

利用词嵌入技术消除神经机器翻译中的性别偏差

本文提出使用词向量以减少神经机器翻译中性别偏见的方法并应用于 Transformer 翻译结构中，通过评估在 WMT 英西标准测试上的结果，展示出一定的性能提高和在职业测试集上消除基线系统已存在的偏见。

Jan, 2019

去偏差化是否必然导致模型性能下降

本文提出了一个理论框架，解释了语言模型性别偏差的三个候选机制，发现大部分现有的去偏见方法会导致性能下降，但提出了一种不会降低模型性能的方法，即因果检测微调方法。通过数值实验证明，该方法能够在部分缓解性别偏差的同时避免性能下降。

Nov, 2022

女性也滑雪板：克服字幕模型中的偏见

本文介绍一种新的 Equalizer 模型，该模型生成基于个体外貌或图像环境的性别特定字幕单词，并使用 “外貌混淆损失” 和 “自信损失” 缓解了描述数据集中不必要的偏差影响，从而实现了目标当性别信息模糊时，模型需要看人物而不是使用语境线索来制定性别特定的预测。

Mar, 2018

预训练印度语言模型的高效性别去偏见

本文针对印度语言，量化职业中的性别偏见，并通过有效的微调方法减缓其中存在的偏见，以建立更公平的系统。

Sep, 2022

偏见的诞生：一项关于英语语言模型中性别偏见演变的研究

研究发现使用 LSTM 架构训练的语言模型在表示性别时存在动态变化，并且性别信息逐渐局部化。通过监控训练动态，可以检测到女性和男性在输入嵌入中的表示不对称。去除偏见的策略如何应用需要更多深入探讨。

Jul, 2022

消除信息检索模型中的性别偏见

研究通过引入性别缓解技术、使用预训练模型以及适配器网络，成功地减轻了性别偏见问题，并提高了信息检索的敏感性。

Aug, 2022

减少辱骂语言检测中的性别偏见

本文研究滥用语言检测模型的偏见问题，通过使用不同的滥用语言数据集和预训练词嵌入和模型架构，分析性别偏见并尝试了三种减轻偏见的方法：去偏向词嵌入、性别交换数据扩充以及使用更大的语料库进行微调。这些方法有效的降低了性别偏见 90-98%，并且可以扩展到解决其他情况下的偏见问题。

Aug, 2018

平衡偏差：通过平衡训练实现公平

该研究旨在解决自然语言处理中与作者人口统计信息相关的系统偏差问题，提出了一种基于数据集平衡和带保护属性的门控模型来实现公正性，证明了该方法在减少偏差方面优于其他技术。

Sep, 2021

女性也滑雪板：克服标题模型中的偏见 (摘要)

本研究介绍一种称为 Equalizer 的新方法，它可以确保在场景中遮挡性别证据时具有平等的性别概率，并在存在性别证据时具有自信的预测，以减轻描述数据集中不想要的偏见的影响。此模型在描述含人物的图像时预测其性别的错误率低于以前的工作，并更接近包括女性句子和包括男性句子的语句的实际比率。

Jul, 2018