May, 2024

雇佣我还是不雇佣?考察语言模型对职业属性的行为

TL;DR本论文研究了大型语言模型在职业决策过程中与性别刻板印象相关的行为,通过多轮问答的方式,探究和量化了性别刻板印象在语言模型行为中的存在,并测试了三种模型的偏好。发现所有模型都存在类似于人类偏见的性别刻板印象,但偏好不同,且 GPT-3.5-turbo 和 Llama2-70b-chat 的不同偏好可能意味着当前的对齐方法对消除偏见不足够,甚至可能引入与传统性别刻板印象相矛盾的新偏见。