Feb, 2024

公平信念评估 —— 评估语言模型中的有害信念

TL;DR通过 FairBelief 分析方法,我们揭示了英语语言模型普遍具有关于特定性别的伤害性信念,不同的训练过程、数据集、模型规模和架构会引发各种程度的伤害性信念。