文本生成中的国籍偏见
本文通过分析提及不同人群的信息生成的文本,系统研究了自然语言生成中的偏见,并引入了关于群体态度的概念,使用不同群体态度的不同水平作为自然语言生成偏见的定义度量,并分析情感分数在关于群体态度的代理度量方面的相关性。同时,通过收集 strategically-generated text,手动注释文本并构建自动态度分类器来分析未见过的文本中的偏见程度,揭示了语言模型生成的偏见性质。研究提供了关于自然语言生成偏见、偏见度量和相关人类判断的研究以及我们注释的数据集的实证证据。
Sep, 2019
我们提出了一种通用方法来控制自然语言生成中的社会偏见。通过对特定人口群体进行输入提示的提及,我们开发了一种诱发社会偏见的方法,并对两种情况进行了分析:在一种人口群体中诱发负面偏见,同时在另一种人口群体中诱发正面偏见,并使偏见在不同人口群体之间相等。该方法被证明在减轻偏见过程中是有效的。
May, 2020
该研究介绍了一个大规模数据集以及一个新的自动化度量方法,用于研究和评测深度学习技术所生成的自由文本中存在的社会偏见,并发现机器生成的大部分文本在五个领域中表现出比人类撰写的维基百科文本更大的社会偏见。
Jan, 2021
本研究提出了一种名为LABDet的鲁棒的、语言无关的方法,用于评估PLMs中的社会偏见,且通过实验证明LABDet能展现国籍偏见,我们在六种语言上使用该方法,并验证了其可靠性和适用性。
May, 2023
本研究探讨了自然语言处理模型中偏见及其避免技术的现有文献,包括为何首先解决偏见问题;此外,文中分析了这些技术在比过去更大的新型模型下的表现。为了实现这些目标,本文作者使用目前可由消费者使用的最大 NLP 模型 GPT3 进行了研究。通过使用 GPT3 开发申请人跟踪系统进行测试,其中主要关注了性别偏见而不是所有或多种类型的偏见。最终,考虑和测试了当前的减轻技术以测试其功能程度。
Jun, 2023
研究了自然语言处理(NLP)模型中的国籍偏见及其对公众看法的影响,并发现具有偏见的NLP模型会复制和放大现有社会偏见,导致人工智能系统的不公平和不正义,强调了公众看法在塑造人工智能对社会的影响中的关键作用以及纠正人工智能系统中的偏见的必要性。
Aug, 2023
我们提出了一个名为GPTBIAS的偏见评估框架,它利用LLMs的高性能来评估模型的偏见,提供偏见分数以及包括偏见类型、受影响的人群、关键词和改进建议在内的详细信息,通过广泛的实验证明了该评估框架的有效性和可用性。
Dec, 2023
ChatGPT(GPT-3.5)是一个大型语言模型,该研究调查了ChatGPT中的国籍偏见,通过分析自动生成的论述,发现其生成的文本表现出真实世界中的国籍偏见,强调了对大型语言模型中潜在偏见的进一步审查的必要性。
May, 2024
本研究解决了生成 AI 模型(如 GPT-3.5 和 4)中意识形态偏见的识别问题,揭示了偏见来自训练数据和过滤算法。研究发现,GPT 输出在语言和社会政治态度的差异中表现出更明显的保守或自由倾向,强调了高质量数据集对减少偏见的重要性。
Sep, 2024
本研究解决了当前对生成性人工智能(GenAI)中固有社会偏见理解不足的问题,重点考察非专业用户如何识别和与这些偏见互动。通过分析大学级竞赛中参与者的提示设计,我们发现了多种在GenAI中存在的偏见及其诱导策略,为理解用户对GenAI系统偏见的感知提供了重要见解,旨在为模型开发者的偏见缓解工作提供指导。
Oct, 2024