通过常识推理揭示叙述中的隐性性别偏见

EMNLPSep, 2021

通过常识推理揭示叙述中的隐性性别偏见

Uncovering Implicit Gender Bias in Narratives through Commonsense Inference

Tenghao Huang, Faeze Brahman, Vered Shwartz, Snigdha Chaturvedi

TL;DR研究表明，预训练语言模型从其训练语料库中学习到具有社会伤害性的偏见，并可能在生成过程中重复这些偏见。本文研究模型生成故事中与主角相关的性别偏见，使用常识推理引擎揭示了其中的隐含偏见，包括主角的动机、属性、心态以及对他人的影响。我们的研究发现对于隐含的偏见与之前研究显性偏见的结论一致，例如女性角色的描写主要集中在外貌上，而男性角色则侧重于智力方面。

Abstract

pre-trained language models learn socially harmful biases from their training corpora, and may repeat these biases when used for generation. We study gender biases associated with the protagonist in model-generated stor

pre-trained language models gender biases model-generated stories implicit biases commonsense reasoning engine

发现论文，激发创造

无监督发现隐性性别偏见

本文提出了一种无监督的方法，通过倾向匹配和对抗性学习来降低混淆，并着重于展现隐含的性别偏见，并揭示了针对女性政治家的有偏见评论包含各种批评，而针对其他女性公众人物的评论则集中于外貌和性感方面。最终，我们的工作提供了一种在各个领域捕捉微妙偏见的方法，而无需依赖主观的人类判断。

Apr, 2020

自然语言推断中的性别偏见评估

本文提出了一种评估方法来测量天生的性别偏见，其通过构建一项挑战任务，通过将性别中性前提与性别具体假设进行配对的方式来进行。研究发现，许多先进的 NLI 模型在使用职业数据集进行训练时会因性别偏见而出现错误，但通过通过扩充训练数据集来确保性别平衡，可以在某些情况下帮助减少此类偏差。

May, 2021

通过机器学习之镜查找畅销电影中的性别偏见

通过对英语电影本文分析了性别角色的刻画，并运用自然语言处理技术和机器学习技术探讨了男性和女性角色在性格特征上存在的差异和社会刻板印象，致力于推动电影行业中的性别平等。

Nov, 2022

通过因果推断实现词嵌入：减少性别偏见并保留语义信息

通过提出一种基于因果推断框架的新方法来有效消除性别偏见，该方法可以在保留嵌入式语义信息的同时构建和分析性别信息流的复杂因果机制，从而在性别去偏任务中取得最新的技术结果。

Dec, 2021

赤裸上身且危险：量化一个在线小说创作社区中性别偏见的语言信号

通过自然语言处理和众包的刻板印象词汇表相结合的方法，该研究探讨了 1.8 亿个单词中男女在小说中的性别代表、描述、行为以及作者使用性别刻板印象之间的联系，并发现男性占比较高和传统的性别刻板印象在我们的语料库中几乎普遍存在，然而只有其中一些如性感或暴力的男性才会与高评价的故事相关。最后，尽管女性常常成为负面刻板印象的对象，但女性作者与男性作者一样容易写出这样的刻板印象。

Mar, 2016

偏见的诞生：一项关于英语语言模型中性别偏见演变的研究

研究发现使用 LSTM 架构训练的语言模型在表示性别时存在动态变化，并且性别信息逐渐局部化。通过监控训练动态，可以检测到女性和男性在输入嵌入中的表示不对称。去除偏见的策略如何应用需要更多深入探讨。

Jul, 2022

超越 “男性密码”：NLP 背景下的隐性男性偏见

研究调查了两个自然语言处理数据集，发现当语言具有性别特征时，特别是具有男性特征时，就会出现性别偏见，为此提出了一个名为 AVA 的新词典，旨在涵盖性别化语言与 VA 语言之间的模糊关联。

Apr, 2023

AI 系统公平性：缓解语言视觉模型中的性别偏见

本研究尝试减轻语言视觉模型中的性别偏见问题，通过研究现有数据集中性别偏见的影响程度，并提出一种缓解方法。

May, 2023

消除信息检索模型中的性别偏见

研究通过引入性别缓解技术、使用预训练模型以及适配器网络，成功地减轻了性别偏见问题，并提高了信息检索的敏感性。

Aug, 2022

探索并缓解语言模型中的社会偏见

为了提高语言模型的公正性，本文提出了多项定义并给出了新的测试和度量方式，旨在减少机器学习在文本生成过程中对性别、种族、语言宗教等社会构建的刻板印象所带来的负面影响。实证结果和人工评估表明，该方法能够在文本生成中减少偏见同时保留重要的上下文信息。

Jun, 2021