雇佣我还是不雇佣？考察语言模型对职业属性的行为

May, 2024

雇佣我还是不雇佣？考察语言模型对职业属性的行为

Hire Me or Not? Examining Language Model's Behavior with Occupation Attributes

Damin Zhang, Yi Zhang, Geetanjali Bihani, Julia Rayz

TL;DR本论文研究了大型语言模型在职业决策过程中与性别刻板印象相关的行为，通过多轮问答的方式，探究和量化了性别刻板印象在语言模型行为中的存在，并测试了三种模型的偏好。发现所有模型都存在类似于人类偏见的性别刻板印象，但偏好不同，且 GPT-3.5-turbo 和 Llama2-70b-chat 的不同偏好可能意味着当前的对齐方法对消除偏见不足够，甚至可能引入与传统性别刻板印象相矛盾的新偏见。

Abstract

With the impressive performance in various downstream tasks, large language models (LLMs) have been widely integrated into production pipelines, like recruitment and recommendation systems. A known issue of models trained on natural language data is the presence of human biases, which can impact the fairness of the system. This paper investigates LLMs' behav

large language models gender stereotypes occupation decision making multi-round question answering debiasing

发现论文，激发创造

大型语言模型中的性别偏见和刻板印象

通过对四个最近发表的大型语言模型进行测试，我们发现大型语言模型在性别刻板印象、职业偏见和句子结构等方面表现出偏见，它们更倾向于选择与性别刻板印象相关的职业，并且在提供自己选择的解释时常常存在事实错误，对于这些模型的偏见行为，我们需要谨慎测试以确保它们对待边缘化个体和社区是公平的。

Aug, 2023

大型语言模型的机会不平等：透过职位推荐揭示人口偏见

通过分析工作推荐，揭示大型语言模型中的人口统计偏见。研究发现 LLMs 存在与不同人口统计身份相关的偏见，如 Mexican workers 普遍倾向于低薪工作，女性倾向于秘书角色。这突出了在后续应用中量化 LLMs 偏见的重要性，以了解可能造成的伤害和不公平结果。

Aug, 2023

探究 ChatGPT 时代算法招聘偏见：Emilly、Greg 是否比 Lakisha、Jamal 更具就业能力？

大型语言模型在算法招聘中的使用引发了与受保护属性（如性别、种族和孕期状态）的偏见问题。本研究基于开源的大型语言模型，在匹配简历与职位类别以及总结简历的两个任务上评估性别、种族、孕期状态和政治倾向的偏见。结果显示大型语言模型在种族和性别方面具有鲁棒性，但在孕期状态和政治倾向方面表现不同，通过对比输入解码方法揭示了潜在的偏见源。

Oct, 2023

大型语言模型评估：STEM 教育与性别刻板印象

通过开放式、用户真实案例实验设计和定量分析，本文调查了 LLMs 中的性别偏见与教育选择之间的关系，在四种不同的文化、语言和教育系统（英语 / 美国 / 英国，丹麦 / 丹麦，加泰罗尼亚 / 西班牙，印地语 / 印度）的背景下调查了性别偏见，研究发现在使用典型的男孩名字和女孩名字提示建议职业时，chatGPT 提供的建议教育路径中的 STEM 和非 STEM 的比例存在显著而大的差异，丹麦、西班牙和印度背景下的 STEM 建议较少，同时发现职业建议中的细微差异。

Jun, 2024

OccuQuest: 减少专有职业偏见，让大型语言模型更具包容性

存在职业偏见的现有指导调整数据集限制了指导调整型大语言模型在特定领域的从业者的职业问题中生成有用的回应，为了缓解这个问题并推动包含各种职业的大语言模型的发展，我们创建了一个名为 OccuQuest 的指导调整数据集，包括超过 1,000 个职业在内的 110,000 多个提示完成对以及 30,000 多个对话，通过与三个常用数据集 (Dolly、ShareGPT 和 WizardLM) 进行比较，我们观察到 OccuQuest 在职业分布方面更加平衡，此外，我们还组装了三个用于综合评估的测试集，一个覆盖 25 个职业类别的 occu-test 测试集，一个聚焦于房地产的 estate 测试集和一个包含来自 Quora 的实际问题的 occu-quora 测试集，然后我们在 OccuQuest 上对 LLaMA 进行微调，得到 OccuLLaMA，在 GPT-4 和人工评估中，OccuLLaMA 在专业问题上明显优于现有的 LLaMA 变体 (Vicuna、Tulu 和 WizardLM)，值得注意的是，在 occu-quora 测试集上，OccuLLaMA 对 WizardLM 的胜率高达 86.4%。

Oct, 2023

大型语言模型中的受保护群体偏见与刻板印象

在伦理和公平的领域中，现代大型语言模型 (Large Language Models，LLMs) 在破解很多最先进的基准测试中表现出色，该研究主要探讨 LLMs 在受保护群体偏见方面的行为，发现 LLMs 存在对性别、性取向和西方文化的偏见，并且模型不仅反映了社会偏见，而且似乎放大了这些偏见。尽管该模型对涉及受保护群体的问题过于谨慎，强调多样性和公平，但这种人工限制潜在有害输出的做法本身可能会造成伤害，应该谨慎和有控制地应用。

Mar, 2024

JobFair: 大规模语言模型中评估性别招聘偏见的框架

基于大型语言模型的层次性性别招聘偏见评估框架揭示了反向偏见和过度去偏见的重要问题。

Jun, 2024

大型语言模型中的包容性：科学摘要中的个性特征和性别偏见

评估三种主要的大型语言模型（Claude 3 Opus、Mistral AI Large 和 Gemini 1.5 Flash）在科学摘要文本生成任务中的表现，发现尽管这些模型的生成文本通常与人类创作的内容非常相似，但在风格上存在显著的性别偏见，这研究强调了开发能够维持多样写作风格以促进学术交流包容性的重要性。

Jun, 2024

评估 LLMs 在著名人士中的性别差异

该研究评估了大型语言模型对获取事实信息的使用，特别研究了这些模型在回答问题时可能产生错误回答或完全拒绝回答的倾向，并重点调查了性别差异在模型回答中的存在。研究结果显示 GPT-3.5 生成的回答存在明显性别差异，尽管 GPT-4 的进展改善了性能，但并未完全消除这些性别差异，特别是在回答被拒绝的情况下。研究进一步探讨了提示中性别相关性和回答的同质性对这些差异的影响。

Mar, 2024

揭示法学硕士职业领域中的性别偏见：分析与解决社会学意义

该研究探讨了大型语言模型中的性别偏见问题，特别关注 GPT-2 和 GPT-3.5 等多个语言模型之间的比较，通过对生成的文本进行全面的文献综述和定量分析，发现了性别化词汇关联、语言使用和偏见叙述的问题，并提出了减少性别偏见的算法和数据增强技术。该研究强调了学科间合作的重要性和社会学研究在减少 AI 模型性别偏见中的作用。

Jul, 2023