通过开放式语言生成测量偏见的挑战
本文通过分析提及不同人群的信息生成的文本,系统研究了自然语言生成中的偏见,并引入了关于群体态度的概念,使用不同群体态度的不同水平作为自然语言生成偏见的定义度量,并分析情感分数在关于群体态度的代理度量方面的相关性。同时,通过收集 strategically-generated text,手动注释文本并构建自动态度分类器来分析未见过的文本中的偏见程度,揭示了语言模型生成的偏见性质。研究提供了关于自然语言生成偏见、偏见度量和相关人类判断的研究以及我们注释的数据集的实证证据。
Sep, 2019
我们提出了一种通用方法来控制自然语言生成中的社会偏见。通过对特定人口群体进行输入提示的提及,我们开发了一种诱发社会偏见的方法,并对两种情况进行了分析:在一种人口群体中诱发负面偏见,同时在另一种人口群体中诱发正面偏见,并使偏见在不同人口群体之间相等。该方法被证明在减轻偏见过程中是有效的。
May, 2020
该研究介绍了一个大规模数据集以及一个新的自动化度量方法,用于研究和评测深度学习技术所生成的自由文本中存在的社会偏见,并发现机器生成的大部分文本在五个领域中表现出比人类撰写的维基百科文本更大的社会偏见。
Jan, 2021
通过调查,我们着重讨论了语言生成中社会偏见的数据和技术对偏见的影响及降低偏见的进展,并进行了实验来量化解码技术的影响,提出了语言生成应用公平和包容性考虑的重要性。
May, 2021
本文通过创建一个基于职业的自然句子语料库来评估语言模型上的偏差,与以往只使用合成数据集的研究方法有所不同,证明使用基于自然句子的提示会比基于预设模板的提示更为准确和系统化地评估性别-职业偏差。
May, 2022
本文介绍了一种全新的包含13个不同人口统计学轴线近600个描述符的、基于HolisticBias的更加包容性的偏差测量数据集,结合一组偏差测量模板产生超过45万个独特的句子提示,用于探索、识别和减少几个生成模型中的新型偏差。
May, 2022
本研究探讨了预训练语言模型在不同语言中所存在的偏见,提出了一种基于句子假设度量的模板方法来检测偏见,通过该方法分析了每个单语模型。研究发现,检测偏见的方法高度依赖于语言和文化,需要对每种语言和文化的独特表达方式进行深入了解。而与此相关的,我们假设非英语BERT模型中更高的社会偏见指数与其训练的用户生成内容有关。
Nov, 2022
本文研究了预训练语言模型的生成文本中存在的人类偏见和其对不同人口群体的影响,针对现有的评估技术和基准的准确性问题,提出了新的评估框架以更稳健地测量和量化语言模型所表现出的偏见。并使用该框架调查了GPT-3的职业性别偏见,并提出了一些缓解这些偏见的提示技术。
Dec, 2022
通过量化和定性分析90个偏见测试,本文在应用测量建模框架来创造捕捉偏见测试目标的属性分类法的基础上,揭示了偏见测试的核心概念和操作存在的不明确、含蓄、或不匹配的偏差种类及其频度,并提出指导方案,以便更全面地探索偏见空间和更全面地评估语言模型的实验设计。
May, 2023
大型语言模型中的社会偏见评估和缓解技术的综述,介绍了社会偏见与公平的概念、评估指标和数据集,以及介绍了干预方法的分类和研究趋势,帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。
Sep, 2023