生成语言模型的非歧视标准
通过比较研究和建立评估框架,在专业环境中研究语言模型的两种偏见:性别和种族。我们发现,尽管较新的模型相比较老模型来说性别偏见大大减少,但种族偏见仍然存在。
Nov, 2023
本文提出了一种评估方法来测量天生的性别偏见,其通过构建一项挑战任务,通过将性别中性前提与性别具体假设进行配对的方式来进行。研究发现,许多先进的 NLI 模型在使用职业数据集进行训练时会因性别偏见而出现错误,但通过通过扩充训练数据集来确保性别平衡,可以在某些情况下帮助减少此类偏差。
May, 2021
为了提高语言模型的公正性,本文提出了多项定义并给出了新的测试和度量方式,旨在减少机器学习在文本生成过程中对性别、种族、语言宗教等社会构建的刻板印象所带来的负面影响。实证结果和人工评估表明,该方法能够在文本生成中减少偏见同时保留重要的上下文信息。
Jun, 2021
这项研究分析了由三种流行的生成人工智能工具生成的图像 - Midjourney、Stable Diffusion 和 DALLE 2 - 代表各种职业,以调查 AI 生成器中潜在的偏见。我们的分析揭示了这些 AI 生成器中两个主要关注领域,包括(1)系统性的性别和种族偏见,以及(2)面部表情和外貌方面的微妙偏见。
Mar, 2024
本文研究了预训练语言模型的生成文本中存在的人类偏见和其对不同人口群体的影响,针对现有的评估技术和基准的准确性问题,提出了新的评估框架以更稳健地测量和量化语言模型所表现出的偏见。并使用该框架调查了 GPT-3 的职业性别偏见,并提出了一些缓解这些偏见的提示技术。
Dec, 2022
在伦理和公平的领域中,现代大型语言模型 (Large Language Models,LLMs) 在破解很多最先进的基准测试中表现出色,该研究主要探讨 LLMs 在受保护群体偏见方面的行为,发现 LLMs 存在对性别、性取向和西方文化的偏见,并且模型不仅反映了社会偏见,而且似乎放大了这些偏见。尽管该模型对涉及受保护群体的问题过于谨慎,强调多样性和公平,但这种人工限制潜在有害输出的做法本身可能会造成伤害,应该谨慎和有控制地应用。
Mar, 2024
本研究探讨大型语言模型中的性别信号,并重点关注英语文本中的两种信号类型:事实性性别信息和性别偏见,在保留事实性性别信号的同时试图减弱刻板印象。研究发现,可以通过过滤方法减少性别中立的专业名称的刻板印象,而不会对语言建模能力造成显着的恶化。这些发现可以应用于语言生成,以缓解对刻板印象的依赖同时保留性别一致的指代。
Jun, 2022
通过对 93 个羞辱现象的分类和构建 QA 数据集来测试社会偏见扩大化对生成性语言模型的影响,发现这些模型生成的输出在很大程度上增加了对受羞辱群体的社会偏见,并且模板设计的选择和问题提示方式都会影响生成的社会偏见输出。
Dec, 2023