BriefGPT.xyz
Ask
alpha
关键词
hurtful beliefs
搜索结果 - 1
公平信念评估 —— 评估语言模型中的有害信念
通过 FairBelief 分析方法,我们揭示了英语语言模型普遍具有关于特定性别的伤害性信念,不同的训练过程、数据集、模型规模和架构会引发各种程度的伤害性信念。
PDF
4 months ago
Prev
Next