Aug, 2023

知识神经中心之旅:发现无关语言的知识神经元和退化知识神经元

TL;DR本研究揭示了多语种预训练语言模型中的事实知识是如何存储在参数中的,并引入了架构适应性多语种集成梯度方法,它相比现有方法更准确地定位知识神经元,并且在不同的架构和语言中更具普适性。此外,我们对知识神经元进行了深入探索,发现了两个重要发现:(1) 存储跨语言事实知识的语言无关知识神经元的发现;(2) 退化知识神经元的发现,它表明不同的知识神经元可以存储相同的事实。实验证明了这些发现,并为多语种预训练语言模型中事实知识存储的机制提供了宝贵的见解,源代码将公开供进一步研究使用。