Feb, 2024

偏见与反复无常:度量大型语言模型中的社会歧视的统计框架

TL;DR通过考虑大型语言模型的持久偏见和生成不一致性,我们在本文中提出了偏见 - 反复性框架(PCF),从而全面测量 LLMs 中的歧视行为。我们对 12 个常见 LLMs 应用我们的歧视测量框架,发现现代 LLMs 存在显著的男性偏见,并且 LLMs 的歧视行为与多个社会和经济因素相关。