在显式无偏的大型语言模型中测量隐性偏见
大型语言模型(LLMs)的普及引发了对其可能产生的不道德内容的增加关注。本文通过利用精心设计的指令进行攻击,以评估 LLMs 对特定群体的潜在偏见。我们提出了三种攻击方法(伪装、欺骗和教授),并构建了四种常见偏见类型的评估数据集。对典型 LLMs 进行了广泛评估,结果显示:1)所有三种攻击方法都非常有效,特别是欺骗攻击;2)GLM-3 在防御我们的攻击方面表现最佳,相比之下 GPT-3.5 和 GPT-4 则较差;3)当以一种偏见类型进行教授时,LLMs 可能会输出其他类型的内容。我们的方法提供了一种可靠而有效的评估 LLMs 潜在偏见的方式,并有助于评估 LLMs 的潜在伦理风险。
Jun, 2024
我们介绍了 BiasBuster,这是一个旨在发现、评估和减轻大型语言模型中认知偏见的框架。通过在心理学和认知科学的前期研究基础上开发了一个包含 16,800 个提示的数据集,我们测试了各种减轻偏见的策略,并提出了一种使用大型语言模型来去偏置其自身提示的新方法。我们的分析提供了商业和开源模型中认知偏见存在及其影响的全面图片。我们证明了我们的自助去偏置方法能够有效减轻认知偏见,而无需为每种偏见类型手动制作示例。
Feb, 2024
通过评估不同方法对模型预测中的标签偏倚进行量化研究,我们提出了一种专门用于少样本提示的新型标签偏倚校准方法,其在提高性能和减轻标签偏倚方面优于最近的校准方法。我们的结果强调大型语言模型中标签偏倚对其可靠性的影响。
May, 2024
近期的研究表明,预训练的大型语言模型(LLMs)具有类似于人类观察到的认知结构,促使研究人员探究 LLMs 的认知方面。本文聚焦于心理学中的一个独特两级认知结构,即显性社会偏见和隐性社会偏见。我们提出了一个两阶段的方法,并在 LLMs 中发现了一个并行现象,即社会偏见中的 “重新判断不一致”。实验调查 ChatGPT 和 GPT-4 关于心理学中常见的性别偏见,证实了重新判断不一致的高度稳定性。这一发现可能表明,随着 LLMs 的能力增强,不同的认知结构也会出现。因此,利用心理学理论可以提供对 LLMs 中显性和隐性结构表达的潜在机制的深入洞察。
Aug, 2023
通过以人类为模版的角色对大型语言模型进行提示和回答问题,我们研究了这种模型在主观注释任务和信念生成任务中的表现,结果显示大型语言模型在模拟已知的人类偏见方面存在不同的结果,但在表现隐含的偏见方面通常未能达到预期。我们得出结论,大型语言模型缺乏人类思维的内在认知机制,虽然能够捕获人们言语的统计模式,但在复杂社会科学应用中可能限制其效果。
Jun, 2024
大型语言模型中的社会偏见评估和缓解技术的综述,介绍了社会偏见与公平的概念、评估指标和数据集,以及介绍了干预方法的分类和研究趋势,帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。
Sep, 2023
通过探索新的方法来检测大型语言模型中的潜在偏见,本研究聚焦于不确定性量化和可解释人工智能方法,旨在提高模型决策的透明性,以识别和理解不明显的偏见,从而为更加公平和透明的人工智能系统的发展做出贡献。
Apr, 2024
大语言模型可以生成具有偏见的回答。然而,先前的直接探测技术包含性别提及或预定义的性别刻板印象,这些很难全面收集。因此,我们提出了一种基于条件生成的间接探测框架,旨在诱使大语言模型揭示其性别偏见,即使没有显式的性别或刻板印象提及。我们探索了三种不同的策略来揭示大语言模型中的显式和隐式性别偏见。我们的实验证明,所有经过测试的大语言模型都表现出显式和 / 或隐式的性别偏见,即使输入中没有性别刻板印象。此外,模型大小的增加或模型对齐会放大大多数情况下的偏见。此外,我们通过超参数调整、指导性指导和去偏调整这三种方法来研究大语言模型中的偏见缓解。值得注意的是,即使没有显式的性别或刻板印象,这些方法也被证明是有效的。
Feb, 2024