BriefGPT.xyz
大模型
Ask
alpha
关键词
ig2
搜索结果 - 1
恶魔在神经元中:解释和减轻预训练语言模型中的社会偏见
该论文提出了 "社会偏见神经元" 的概念,并介绍了一种能够精确定位和抑制与社会偏见相关的单元的方法,从而降低预训练语言模型中的社会偏见。该方法通过使用情感提示词激发与特定情感相关的敏感词和人口统计数据,通过测量其产生的偏差来定位并抑制造成不
→
PDF
20 days ago
Prev
Next