ACLMay, 2023

标记人设:使用自然语言提示来测量语言模型中的刻板印象

TL;DR本文提出了基于提示的标记人物法(Marked Personas),其使用无词库或数据标注的方法来测量具有交叉社会群体的 LLMs 中的刻板印象,结果显示 GPT-3.5 和 GPT-4 生成的叙述比使用相同提示的人类撰写的叙述包含更多种族刻板印象。同时,对于边缘化群体的描绘也存在特定模式,例如热带化和社会萎缩化。这些代表性的伤害对于像故事生成之类的下游应用具有令人担忧的影响。