Feb, 2024

倒推镜头:将语言模型梯度投影到词汇空间

TL;DR理解 Transformer-based 语言模型是深度学习社区的一个关键目标,最近的可解释性方法在前向通道的权重和隐藏状态上帮助发现信息在模型中的流动,本研究将这种方法扩展到后向通道和梯度,证明了梯度矩阵可以被看作是前向和后向通道输入的低秩线性组合,并开发了投影这些梯度到词汇项的方法,探索了如何在语言模型的神经元中存储新信息的机制。