BriefGPT.xyz
大模型
Ask
alpha
关键词
backward pass
搜索结果 - 4
倒推镜头:将语言模型梯度投影到词汇空间
理解 Transformer-based 语言模型是深度学习社区的一个关键目标,最近的可解释性方法在前向通道的权重和隐藏状态上帮助发现信息在模型中的流动,本研究将这种方法扩展到后向通道和梯度,证明了梯度矩阵可以被看作是前向和后向通道输入的低
→
PDF
4 months ago
ICML
使用时间本地规则学习循环模型
生成模型对顺序数据的拟合通常涉及两个循环计算,一个向前,一个向后。本文探讨了一种不同的解决方法:要求生成模型学习当前状态和前一个状态之间的联合分布,而不仅仅是转移概率。在玩具数据集上展示了不同架构使用这一原则能够学习通常需要向后传递的数据方
→
PDF
8 months ago
利用神经网络中的反向传播知识改进知识蒸馏
该论文提出了一种新的知识蒸馏方法,通过在教师模型与学生模型差异较大的地方提取知识,在生成新的辅助样本的过程中改善学生模型的性能,从而使教师模型与学生模型更加匹配。这种方法在自然语言处理和计算机视觉等领域得到了良好的实验结果。
PDF
a year ago
利用隐式微分扩展和稳定可微规划
本文提出了一种不依赖于 forward iteration 层区分前向计算和反向传递并解决 Value Iteration Network 和其变体中大规模问题的不同 iable planning 方法,该方法通过 Bellman fixe
→
PDF
2 years ago
Prev
Next