BriefGPT.xyz
Ask
alpha
关键词
softmax attention model
搜索结果 - 1
一层 Softmax 注意力梯度流的隐性正则化
研究一层 softmax 注意模型上指数损失的梯度流问题,通过分离地训练键值矩阵,我们在数据可分性假设下证明梯度流在达到最小损失值时,进一步隐式地最小化键值矩阵乘积的核范数,这种隐式正则化可以用关注权重的支持向量机(SVM)问题来描述。与先
→
PDF
4 months ago
Prev
Next