Dec, 2023

评估和减轻语言模型决策中的歧视

TL;DR使用自然语言生成模型(LM)可能存在潜在的歧视风险,因此需要更好的方法来评估这些风险。本研究通过使用 LM 生成各种潜在的提示语句,并系统性地改变其中的人口统计信息,从而在各种社会决策场景中评估 LM 的潜在歧视影响。结果显示,在某些特定情况下,未进行干预的 Claude 2.0 模型存在积极和消极歧视的模式。通过有效的提示语句工程,我们展示了降低这些歧视的技术,为安全部署 LM 在适当的使用场景提供了路径。这一研究成果使开发人员和决策者能够在语言模型的能力和应用不断扩展的过程中预见、衡量和解决歧视问题。