揭示大型语言模型中的性别偏见:以高等教育中的教师评估为例
该研究的主要贡献是,通过收集、注释和增强相关句子以促进检测英文文本中的性别偏见,公开提供已标记的数据集和详尽的词汇表,其中所包含的偏见子类型包括:通用他,通用她,明确标记性别和性别新词。同时,利用词嵌入模型进一步增强了所收集的词汇表。
Jan, 2022
该研究探讨了大型语言模型中的性别偏见问题,特别关注GPT-2和GPT-3.5等多个语言模型之间的比较,通过对生成的文本进行全面的文献综述和定量分析,发现了性别化词汇关联、语言使用和偏见叙述的问题,并提出了减少性别偏见的算法和数据增强技术。该研究强调了学科间合作的重要性和社会学研究在减少AI模型性别偏见中的作用。
Jul, 2023
通过对四个最近发表的大型语言模型进行测试,我们发现大型语言模型在性别刻板印象、职业偏见和句子结构等方面表现出偏见,它们更倾向于选择与性别刻板印象相关的职业,并且在提供自己选择的解释时常常存在事实错误,对于这些模型的偏见行为,我们需要谨慎测试以确保它们对待边缘化个体和社区是公平的。
Aug, 2023
这篇论文通过对社交媒体讨论进行内容分析,调查了不同文化背景下训练的大型语言模型(LLM),如ChatGPT和Ernie,对性别偏见的公众看法。研究发现,ChatGPT在隐性性别偏见方面更常见,例如将男性和女性与不同的职业头衔联系在一起,而Ernie的回应中则存在明显的性别偏见,比如过分强调女性追求婚姻而非事业。根据研究结果,我们反思了文化对性别偏见的影响,并提出了规范LLM性别偏见的治理建议。
Sep, 2023
语言作为一种强大的工具,用于展示社会信仰体系,同时也延续了我们社会中普遍存在的偏见。性别偏见是我们社会中最普遍的偏见之一,在线和离线话语中都有所体现。随着语言模型越来越接近人类的流利程度,我们需要深入了解这些系统可能产生的偏见。先前的研究通常将性别偏见视为二元分类任务。然而,我们认识到偏见必须按照相对的尺度来感知,因此我们研究了各种程度偏见的生成和相关性质,并调查了手动注释者对这些偏见的接受程度。具体来说,我们创建了第一个带有性别偏见的GPT生成英文文本数据集,并使用最佳-最差比例进行了权威评级以获得相对评估的度量。接下来,我们系统分析了观察到的排名中性别偏见主题的变化,并显示了攻击身份是与性别偏见最相关的。最后,我们展示了现有模型在我们的数据集上训练的相关概念上的性能。
Oct, 2023
大型语言模型的性别偏见评估涉及大量预定义的性别相关短语和性别刻板印象,而这些短语和刻板印象的全面收集具有挑战性且限制于显性偏见评估。本文提出了一种无需预定义性别短语和刻板印象的条件文本生成机制,通过三种不同策略生成的三种类型的输入来检测大型语言模型中的显性和隐性性别偏见。我们还使用显性和隐性评估指标来评估不同策略下大型语言模型中的性别偏见。实验证明,模型规模的增加并不一定会提高公平性,所有测试的大型语言模型都表现出显性和/或隐性性别偏见,即使输入中没有显性性别刻板印象。
Nov, 2023
我们研究了不同语言中大型语言模型生成的输出中的性别偏见,通过三项测量方法评估性别相关背景下选择描述性词语的性别偏见、选择性别相关代词(她/他)的性别偏见以及生成对话的主题的性别偏见。我们的研究表明,在我们调查的所有语言中都存在显著的性别偏见。
Mar, 2024
研究通过建立一个新的框架UnStereoEval(USE),来调查非刻板化场景下的性别偏见。结果发现,28个测试模型中所有模型都存在较低的公平性,只有9%-41%的非刻板化句子表现出公正行为,这表明偏见不仅仅源自性别相关词的存在,这些结果对模型偏见的根源提出了重要问题,并强调需要更系统和综合的偏见评估。
May, 2024
通过开放式、用户真实案例实验设计和定量分析,本文调查了LLMs中的性别偏见与教育选择之间的关系,在四种不同的文化、语言和教育系统(英语/美国/英国,丹麦/丹麦,加泰罗尼亚/西班牙,印地语/印度)的背景下调查了性别偏见,研究发现在使用典型的男孩名字和女孩名字提示建议职业时,chatGPT提供的建议教育路径中的STEM和非STEM的比例存在显著而大的差异,丹麦、西班牙和印度背景下的STEM建议较少,同时发现职业建议中的细微差异。
Jun, 2024