本文通过分析提及不同人群的信息生成的文本,系统研究了自然语言生成中的偏见,并引入了关于群体态度的概念,使用不同群体态度的不同水平作为自然语言生成偏见的定义度量,并分析情感分数在关于群体态度的代理度量方面的相关性。同时,通过收集 strategically-generated text,手动注释文本并构建自动态度分类器来分析未见过的文本中的偏见程度,揭示了语言模型生成的偏见性质。研究提供了关于自然语言生成偏见、偏见度量和相关人类判断的研究以及我们注释的数据集的实证证据。
Sep, 2019
本文针对自然语言生成任务中出现的偏见展开研究,并提出一个公平性框架加以评估,分析发现现有的语言生成模型存在性别偏见。
Jul, 2020
该研究介绍了一个大规模数据集以及一个新的自动化度量方法,用于研究和评测深度学习技术所生成的自由文本中存在的社会偏见,并发现机器生成的大部分文本在五个领域中表现出比人类撰写的维基百科文本更大的社会偏见。
Jan, 2021
通过调查,我们着重讨论了语言生成中社会偏见的数据和技术对偏见的影响及降低偏见的进展,并进行了实验来量化解码技术的影响,提出了语言生成应用公平和包容性考虑的重要性。
May, 2021
为了提高语言模型的公正性,本文提出了多项定义并给出了新的测试和度量方式,旨在减少机器学习在文本生成过程中对性别、种族、语言宗教等社会构建的刻板印象所带来的负面影响。实证结果和人工评估表明,该方法能够在文本生成中减少偏见同时保留重要的上下文信息。
Jun, 2021
本文分析了影响社会偏见结果的文本补全的具体选择、度量、自动工具和抽样策略,发现在不同的实验设置下,测量偏见的实践很容易产生相互矛盾的结果,并提供了有关开放式语言生成中报告偏见的建议,从而更完整地展示给定语言模型所展示的偏见。
May, 2022
通过使用不同的语法结构,本文提出了一种鲁棒的自然语言生成系统偏见评估方法,其结果显示采用语法多样性的提示可以实现更鲁棒的 NLG(偏见)评估。
Dec, 2022
这篇论文分析了语言模型中的国籍偏见,探讨了GPT-2生成的故事中如何突出现有的有关国籍的社会偏见,并使用敏感性分析探讨了互联网用户数量和国家经济状况对故事情绪的影响。同时还研究了对抗触发的去偏置方法,研究结果表明,GPT-2在对互联网用户较少的国家存在显著的偏见,而对抗触发方法可以有效地降低偏见。
Feb, 2023
本研究提出了一种名为AutoBiasTest的新方法,可自动生成句子以测试预训练语言模型中的社会偏见,从而提供了一种灵活且低成本的替代方案,通过使用另一个PLM进行生成并在社交群体和属性术语的限制下控制句子的生成。我们展示了生成的句子在词长和多样性方面与人类生成的内容相似,通过自动化大规模测试句子的生成,我们可以更好地估计潜在的偏差分布。
大型语言模型中的社会偏见评估和缓解技术的综述,介绍了社会偏见与公平的概念、评估指标和数据集,以及介绍了干预方法的分类和研究趋势,帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。
Sep, 2023