大城市偏见:评估都市规模对语言模型计算任务市场能力的影响
通过分析工作推荐,揭示大型语言模型中的人口统计偏见。研究发现 LLMs 存在与不同人口统计身份相关的偏见,如 Mexican workers 普遍倾向于低薪工作,女性倾向于秘书角色。这突出了在后续应用中量化 LLMs 偏见的重要性,以了解可能造成的伤害和不公平结果。
Aug, 2023
该研究探讨了大型语言模型(LLMs)对中国劳动力市场的潜在影响,通过人工专业知识和 LLM 分类的分析,我们研究了 LLM 能力对职业暴露的影响。结果显示职业暴露与工资水平 / 经验溢价呈正相关,暗示高薪和经验密集型工作可能面临更大的被 LLM 软件取代的风险。该研究在理解中国日益强大的 AI 系统对劳动力市场的影响方面提供了分析基础,创新之处在于职业层面的暴露分析、行业聚合方法以及纳入 AI 采用和劳动力市场效应的经济模型。该研究结果将为决策者和企业提供关于最大化 AI 效益和减轻负面影响风险的策略建议。
Aug, 2023
大型语言模型在关键决策过程中被广泛应用,但其中的固有偏见可能导致歧视性结果。本文研究了人口属性和经济偏见在大型语言模型中微妙的关系,这是一个重要但鲜为人知的公平性领域。我们提出了一个新的数据集,包含一百万个英文句子,以系统地量化各个人口群体之间的经济偏见。研究发现,无论是 GPT-2 等成熟模型还是 Llama 2 和 Falcon 等最新模型,都存在普遍的经济偏见。我们证明了在考虑交叉性别时,这些偏见被显著放大,大型语言模型具有从姓名中提取多个人口属性并将其与特定的经济偏见相关联的能力。这项研究突出了在关键实际应用中部署这些强大模型时,积极和强大的偏见缓解技术的紧迫性。
May, 2024
通过对四个最近发表的大型语言模型进行测试,我们发现大型语言模型在性别刻板印象、职业偏见和句子结构等方面表现出偏见,它们更倾向于选择与性别刻板印象相关的职业,并且在提供自己选择的解释时常常存在事实错误,对于这些模型的偏见行为,我们需要谨慎测试以确保它们对待边缘化个体和社区是公平的。
Aug, 2023
利用大型语言模型作为零样本下一个位置的预测器进行了评估,并展示了其较高的准确性和解释能力,为解决诸如疾病传播和减少污染等社会问题提供了一种新思路。
May, 2024
该论文调查了大型语言模型的八个潜在问题,包括其预测能力的增强,不可预测的行为的出现,对外部世界的学习和使用表示,行为引导技术的不可靠性,内部工作方式的解释困难性,性能上界不是人类任务表现,不一定表达其创建者或网络文本编码的价值观,与 LLMs 的简短交往经常是误导性的。
Apr, 2023
本研究通过使用 SummEval 数据集进行一系列分析,证实了大型语言模型作为评估器在以下方面存在偏见和不一致性:(1)体现对低困惑度文本的偏好;(2)显示具有偏见的评分分布;(3)经历多属性判断时的锚定效应。此外,我们分享了配置大型语言模型评估器以减轻这些限制的方法,通过 RoSE 数据集的实验证明了与最先进的大型语言模型评估器相比的改进。
May, 2024
我们研究大型语言模型(LLMs)是否在招聘决策中表现出基于种族和性别的姓名歧视,类似社会科学中的经典研究结果(Bertrand 和 Mullainathan,2004 年)。通过为 LLMs 设计一系列模板提示,要求其给被命名的求职者写一封邮件,告知其招聘决定,我们通过操纵求职者的名字,衡量 LLLMS 生成接受或拒绝邮件的概率如何受到被认知的种族、民族和性别的影响。我们发现在许多情况下,LLLMS 的招聘决策更有可能倾向于白人申请者而不是西班牙裔申请者。总体而言,接受率最高和最低的群体分别是男性白人姓名和男性西班牙裔姓名。然而,在不同的模板设置下,各群体的接受率有所不同,这表明 LLLMS 对种族和性别的敏感性可能是独特的,并且受到模板提示的影响。
Jun, 2024
对于大型语言模型,在抽象摘要任务中表现出色,但在多文档问答中存在输入上下文偏差,导致摘要内容分散,影响性能。本文通过实证研究揭示了这种偏差对于大型语言模型在不同摘要评估上的挑战。
Oct, 2023