Feb, 2024

审计大型语言模型中的种族和性别偏见

TL;DR我们利用审计设计研究了最先进的大型语言模型 (GPT-4) 中存在的偏见。通过在各种场景中向模型寻求建议,如在购车谈判或选举结果预测中,我们发现这些建议系统性地对与种族少数群体和女性有关联的名字不利。与黑人女性有关的名字获得的结果最不有利。这些偏见在 42 个模板和几个模型中的一致性表明这是一个系统性问题,而非孤立事件。虽然在提示中提供数量、决策相关的锚点可以成功抵消偏见,但定性细节的作用不一致,甚至可能加剧不平等。我们的发现强调了在 LLM 部署和实施过程中进行审计的重要性,以减轻其对边缘化社群的潜在伤害。