BriefGPT.xyz
Dec, 2023
附带的多义性
Incidental Polysemanticity
HTML
PDF
Victor Lecomte, Kushal Thaman, Trevor Chow, Rylan Schaeffer, Sanmi Koyejo
TL;DR
多义性神经元是优化任务的深度网络中的一个重要障碍,会对人工智能安全性产生影响。本研究提出了多义性的第二种可能产生方式,名为“偶发性多义性”,并通过理论和实验证明了这种现象的存在。
Abstract
polysemantic neurons
(neurons that activate for a set of unrelated features) have been seen as a significant obstacle towards
interpretability
of
→