Jun, 2024

从心理测量学角度攻击大型语言模型以评估隐性偏见

TL;DR大型语言模型(LLMs)的普及引发了对其可能产生的不道德内容的增加关注。本文通过利用精心设计的指令进行攻击,以评估 LLMs 对特定群体的潜在偏见。我们提出了三种攻击方法(伪装、欺骗和教授),并构建了四种常见偏见类型的评估数据集。对典型 LLMs 进行了广泛评估,结果显示:1)所有三种攻击方法都非常有效,特别是欺骗攻击;2)GLM-3 在防御我们的攻击方面表现最佳,相比之下 GPT-3.5 和 GPT-4 则较差;3)当以一种偏见类型进行教授时,LLMs 可能会输出其他类型的内容。我们的方法提供了一种可靠而有效的评估 LLMs 潜在偏见的方式,并有助于评估 LLMs 的潜在伦理风险。