研究诗歌创作系统中的社会偏见
为了提高语言模型的公正性,本文提出了多项定义并给出了新的测试和度量方式,旨在减少机器学习在文本生成过程中对性别、种族、语言宗教等社会构建的刻板印象所带来的负面影响。实证结果和人工评估表明,该方法能够在文本生成中减少偏见同时保留重要的上下文信息。
Jun, 2021
通过调查,我们着重讨论了语言生成中社会偏见的数据和技术对偏见的影响及降低偏见的进展,并进行了实验来量化解码技术的影响,提出了语言生成应用公平和包容性考虑的重要性。
May, 2021
我们提出了一种通用方法来控制自然语言生成中的社会偏见。通过对特定人口群体进行输入提示的提及,我们开发了一种诱发社会偏见的方法,并对两种情况进行了分析:在一种人口群体中诱发负面偏见,同时在另一种人口群体中诱发正面偏见,并使偏见在不同人口群体之间相等。该方法被证明在减轻偏见过程中是有效的。
May, 2020
本文通过研究 NLP 模型中三个社会身份(种族、性别和宗教)之间的偏见相关性,提出在对偏见进行改善时需要综合考虑相关的偏见,而不是各自分开处理,以引导更多相关研究
May, 2022
快速增长的自然语言处理在各种社会技术解决方案中的使用和应用突显了对偏见及其对社会的影响的全面理解的需求。虽然 NLP 中的偏见研究得到了扩展,但仍存在一些需要关注的挑战,包括有限地关注种族和性别以外的社会人口偏见、主要集中在模型上的狭窄分析范围,以及技术为中心的实施方法。本文解决了这些挑战,并倡导一种更加跨学科的方式来理解 NLP 中的偏见。该工作分为三个方面,每个方面探索 NLP 中的特定偏见方面。
Aug, 2023
本文提出一种公平的 ML 管道,旨在通过替换存在偏见和有害内容的单词来降低社交媒体数据中的偏见影响。结果显示我们的方法可以检测、识别和减轻社交媒体数据中的偏见和有害内容。
Mar, 2023
本研究提供了第一个特意设计用于检测系统中不当偏见的基准数据集,即 Equity Evaluation Corpus (EEC),基于此数据集,我们研究了参加 SemEval-2018 任务 1 的 219 个自动情感分析系统,发现其中多个系统在种族或性别方面存在显著的偏差,结果揭示了自动机器学习系统可能会自发强化和永久化不当偏见或歧视。
May, 2018
本文回顾了当今关于识别和减轻 NLP 中的性别偏置的研究,并分析了四种代表性偏置基础上的性别偏见和认识其方法,同时探讨了现有性别去偏方法的优缺点和未来的研究。
Jun, 2019
预训练语言模型在当前和未来的创新中的好处和能力对任何社会都至关重要,然而,引入和使用语言模型会带来偏见和歧视,引发对平等、多样性和公平的关切,并需要解决。这项研究通过综述综合分析了识别和减轻语言模型中偏见的当前趋势和限制的技术,其中有关减轻偏见的方法的概述被分为度量指标、基准数据集和减轻策略。该调查的重要性和新颖性在于探讨了被忽视的社会的视角,我们认为当前处理偏见问题的做法不能简单地 “插入” 以解决被忽视的社会的需求。我们使用新西兰的例子提出了采用现有技术来适应被忽视的社会的要求。
Dec, 2023