BriefGPT.xyz
Ask
alpha
关键词
new information storage
搜索结果 - 1
倒推镜头:将语言模型梯度投影到词汇空间
理解 Transformer-based 语言模型是深度学习社区的一个关键目标,最近的可解释性方法在前向通道的权重和隐藏状态上帮助发现信息在模型中的流动,本研究将这种方法扩展到后向通道和梯度,证明了梯度矩阵可以被看作是前向和后向通道输入的低
→
PDF
5 months ago
Prev
Next