May, 2023

利用神经元冗余分析解释预训练源代码模型

TL;DR本文提出了一种基于神经元水平的方法来解决神经代码智能模型可解释性的问题,通过去除那些高度相似或任务不相关的神经元,利用熟练的分类器评估重要的神经元,发现在我们的代码智能任务中超过95%的神经元都是冗余的,并可被删除而不会在准确性方面造成重大损失,我们进一步追踪了重要神经元的个体及子集从而发现了负责特定代码属性的'数字','字符串'和更高层次的'text'神经元,这些可以用于修正基于错误信号的预测神经元,并且重要神经元的分布和浓度可以作为任务复杂度的量度。