公平自然语言生成的定义和评估
本次调查分析了 NLP 模型的社会影响,探讨了 NLP 算法中存在性别、种族和文化偏见的根源,定义了公平性,并说明了 NLP 各个子领域如何减少系统存在的偏见,最终讨论了未来研究如何消除 NLP 算法中的有害偏见。
Mar, 2022
本文提出了一种评估方法来测量天生的性别偏见,其通过构建一项挑战任务,通过将性别中性前提与性别具体假设进行配对的方式来进行。研究发现,许多先进的 NLI 模型在使用职业数据集进行训练时会因性别偏见而出现错误,但通过通过扩充训练数据集来确保性别平衡,可以在某些情况下帮助减少此类偏差。
May, 2021
本文通过分析提及不同人群的信息生成的文本,系统研究了自然语言生成中的偏见,并引入了关于群体态度的概念,使用不同群体态度的不同水平作为自然语言生成偏见的定义度量,并分析情感分数在关于群体态度的代理度量方面的相关性。同时,通过收集 strategically-generated text,手动注释文本并构建自动态度分类器来分析未见过的文本中的偏见程度,揭示了语言模型生成的偏见性质。研究提供了关于自然语言生成偏见、偏见度量和相关人类判断的研究以及我们注释的数据集的实证证据。
Sep, 2019
我们提出了一种通用方法来控制自然语言生成中的社会偏见。通过对特定人口群体进行输入提示的提及,我们开发了一种诱发社会偏见的方法,并对两种情况进行了分析:在一种人口群体中诱发负面偏见,同时在另一种人口群体中诱发正面偏见,并使偏见在不同人口群体之间相等。该方法被证明在减轻偏见过程中是有效的。
May, 2020
本文提出了一个正式的公平概念,并利用人工数据集来展示标准神经模型在要求的泛化方面表现不佳,只有联合组合前提和假设的任务特定模型能够达到高性能,即使这些模型也不能完美解决任务。
Nov, 2019
旨在探讨自然语言生成中的公平问题,特别关注自动生成的测试内容对测试结果的影响,构建数据集并使用多种分类方法进行实验,发现自我纠正和少样本学习相结合的方法在公平性上有最佳表现。
Apr, 2024
本研究就 NLP 系统展示的偏见和模型去偏见技术的限制做了梳理和评价,提出了实现公平学习的建议,具体包括明确不同方法之间的关系和与公平性理论的关系,以及处理模型选择问题的声明性工具,以帮助未来的工作。
Feb, 2023
本文通过创建一个基于职业的自然句子语料库来评估语言模型上的偏差,与以往只使用合成数据集的研究方法有所不同,证明使用基于自然句子的提示会比基于预设模板的提示更为准确和系统化地评估性别 - 职业偏差。
May, 2022
本文介绍了一些控制文本生成的方法以增强语言生成模型的创造力和公平性,包括层级生成和约束解码,并应用于故事、诗歌、比喻语言的创意生成,以及减少生成模型的社会偏见。
Sep, 2022
本文系统综述了自然语言生成(NLG)的忠实度问题和相关评估方法和优化方法,并将不同任务的评估和优化方法组织在一个统一的分类中,以促进不同任务之间的比较和学习。
Mar, 2022