Feb, 2024
偏见与反复无常:度量大型语言模型中的社会歧视的统计框架
Prejudice and Caprice: A Statistical Framework for Measuring Social
Discrimination in Large Language Models
TL;DR通过考虑大型语言模型的持久偏见和生成不一致性,我们在本文中提出了偏见-反复性框架(PCF),从而全面测量LLMs中的歧视行为。我们对12个常见LLMs应用我们的歧视测量框架,发现现代LLMs存在显著的男性偏见,并且LLMs的歧视行为与多个社会和经济因素相关。