In some neural networks, individual neurons correspond to natural
``features'' in the input. Such \emph{monosemantic} neurons are of great help
in interpretability studies, as they can be cleanly understood. In t
通过研究不同规模的模型,我们发现在大型模型中达到更高性能的关键因素是单语义神经元的减少,提出了一种主动抑制单语义性的两阶段方法,并通过理论分析和实验证明了其有效性。该方法的适用性不限于大规模,但对于研究部门来说,将该研究扩展至非常大规模的数据集是吸引人的,但受到资源限制而不可能实现,期待 AI 公司的合作。