Jul, 2024

大型语言模型中同质偏差脆弱性的分化概率

TL;DR大型语言模型中的同质性偏差指它们倾向于将某些群体的表示与其他群体同质化。先前的研究主要使用编码模型记录这种偏差,但可能在无意中引入了偏见。为了解决这个问题,我们让 GPT-4 生成与 18 个情境线索相关的单词 / 表达式,并使用差异概率比较这些生成结果的变异性,直接评估了模型输出中的同质性偏差,绕过了编码模型。通过五项研究,我们发现同质性偏差在情境线索和写作提示中高度不稳定,这表明过去的偏差观察可能反映出编码模型而非大型语言模型中的偏见。此外,这些结果表明大型语言模型中的同质性偏差是脆弱的,即使是微小的和任意的提示改变也能显著改变偏见的表达。未来的研究应进一步探索长文本生成中的句法特征和主题选择的变化如何影响大型语言模型中的同质性偏差。