审计语言模型用于指导招聘决策
本文介绍了一个新的大型语言模型审计工具 AdaTest ++,并展示了人类和生成模型在协作审计中的互补优势,该工具有效地利用人类的强项,包括模式化、假设形成和测试,帮助鉴定了之前鲜有报道的 26 种不同类型的失效模式。
Apr, 2023
我们提出了一种自动且可扩展的解决方案来对 LLM 进行审核,其中使用了不同的 LLM 以及人类参与。通过人类参与,我们可以验证回复的标准化评估准则以及生成所需的审核方法。在 TruthfulQA 数据集上的实验证明了我们可以从一个 LLM 生成可靠的审核方法,以用于审核另一个 LLM 的不一致之处。生成和应用审核方法的标准是普适的,适用于不同的 LLM,无论其底层结构或训练机制如何。
Feb, 2024
我们利用审计设计研究了最先进的大型语言模型 (GPT-4) 中存在的偏见。通过在各种场景中向模型寻求建议,如在购车谈判或选举结果预测中,我们发现这些建议系统性地对与种族少数群体和女性有关联的名字不利。与黑人女性有关的名字获得的结果最不有利。这些偏见在 42 个模板和几个模型中的一致性表明这是一个系统性问题,而非孤立事件。虽然在提示中提供数量、决策相关的锚点可以成功抵消偏见,但定性细节的作用不一致,甚至可能加剧不平等。我们的发现强调了在 LLM 部署和实施过程中进行审计的重要性,以减轻其对边缘化社群的潜在伤害。
Feb, 2024
本文阐述了大规模语言模型 (LLMs) 的崛起代表了人工智能 (AI) 研究的重大进展,但是其广泛应用也带来了重大的伦理和社会挑战,需要开发新的审计程序来捕捉 LLMs 的风险。提出了一种三层审计方法,和其优缺点,并最终旨在扩展技术提供商和政策制定者的方法学工具箱来分析和评估 LLMs。
Feb, 2023
大型语言模型中的社会偏见评估和缓解技术的综述,介绍了社会偏见与公平的概念、评估指标和数据集,以及介绍了干预方法的分类和研究趋势,帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。
Sep, 2023
通过批量分析来自一个问题的多个探针生成的回答,AuditLLM 能够测试给定的 LLM 以评估其性能,并得出对 LLM 的一致性的易于解释的结果。它可通过实时查询分析响应进行即时审核,也可通过处理多个查询进行综合分析,旨在提供一个标准化的审核平台,以增进对 LLM 生成回答的能力的理解。
Feb, 2024
通过分析工作推荐,揭示大型语言模型中的人口统计偏见。研究发现 LLMs 存在与不同人口统计身份相关的偏见,如 Mexican workers 普遍倾向于低薪工作,女性倾向于秘书角色。这突出了在后续应用中量化 LLMs 偏见的重要性,以了解可能造成的伤害和不公平结果。
Aug, 2023
通过探索新的方法来检测大型语言模型中的潜在偏见,本研究聚焦于不确定性量化和可解释人工智能方法,旨在提高模型决策的透明性,以识别和理解不明显的偏见,从而为更加公平和透明的人工智能系统的发展做出贡献。
Apr, 2024
我们研究大型语言模型(LLMs)是否在招聘决策中表现出基于种族和性别的姓名歧视,类似社会科学中的经典研究结果(Bertrand 和 Mullainathan,2004 年)。通过为 LLMs 设计一系列模板提示,要求其给被命名的求职者写一封邮件,告知其招聘决定,我们通过操纵求职者的名字,衡量 LLLMS 生成接受或拒绝邮件的概率如何受到被认知的种族、民族和性别的影响。我们发现在许多情况下,LLLMS 的招聘决策更有可能倾向于白人申请者而不是西班牙裔申请者。总体而言,接受率最高和最低的群体分别是男性白人姓名和男性西班牙裔姓名。然而,在不同的模板设置下,各群体的接受率有所不同,这表明 LLLMS 对种族和性别的敏感性可能是独特的,并且受到模板提示的影响。
Jun, 2024
大型语言模型(LLMs)嵌入了复杂的偏见和刻板印象,可能导致有害的用户体验和社会后果,而模型本身通常没有意识到这一点。本文强调了为 LLMs 配备更好的自我反思和偏见识别机制的重要性。我们的实验表明,通过告知 LLMs 它们生成的内容不代表自己的观点,并对其偏见进行质疑,可以提高 LLMs 识别和解决偏见的能力。这种改进归因于 LLMs 的内部注意力机制和潜在的内部敏感性政策。基于这些发现,我们提出了一个减少 LLMs 输出偏见的新方法。该方法涉及将 LLMs 置于多角色情景中,扮演不同角色,在每个辩论循环的最后担任公正裁判的角色,以暴露偏见。采用排名评分机制来量化偏见水平,从而实现更精细的反思和更优质的输出。比较实验结果证实我们的方法在减少偏见方面优于现有方法,为追求更具伦理 AI 系统的努力作出了有价值的贡献。
Apr, 2024