Aug, 2023

心智对口:关于测量大型语言模型中社会偏见的重新判断不一致性

TL;DR近期的研究表明,预训练的大型语言模型(LLMs)具有类似于人类观察到的认知结构,促使研究人员探究 LLMs 的认知方面。本文聚焦于心理学中的一个独特两级认知结构,即显性社会偏见和隐性社会偏见。我们提出了一个两阶段的方法,并在 LLMs 中发现了一个并行现象,即社会偏见中的 “重新判断不一致”。实验调查 ChatGPT 和 GPT-4 关于心理学中常见的性别偏见,证实了重新判断不一致的高度稳定性。这一发现可能表明,随着 LLMs 的能力增强,不同的认知结构也会出现。因此,利用心理学理论可以提供对 LLMs 中显性和隐性结构表达的潜在机制的深入洞察。