BriefGPT.xyz
Ask
alpha
关键词
exponential loss
搜索结果 - 4
一层 Softmax 注意力梯度流的隐性正则化
研究一层 softmax 注意模型上指数损失的梯度流问题,通过分离地训练键值矩阵,我们在数据可分性假设下证明梯度流在达到最小损失值时,进一步隐式地最小化键值矩阵乘积的核范数,这种隐式正则化可以用关注权重的支持向量机(SVM)问题来描述。与先
→
PDF
4 months ago
深度线性分类中的隐式偏见:初始化规模与训练准确性
研究了在 “对角线线性网络” 上最小化指数损失的梯度流轨迹及其隐式优化偏差的详细渐近研究,揭示了 “核” 与非 “核”(“丰富” 或 “活跃”)状态之间的转换如何受初始缩放和最小化训练损失的精度之间的关系控制,结果表明,梯度下降的某些极限行
→
PDF
4 years ago
AUC 两两优化的一致性
本文提供了用于鉴定基于替代损失函数的学习方法渐近一致性的充分条件,并证明了指数损失和逻辑损失与 AUC 一致,但铰链损失是不一致的。基于这个结果,本文还推导了一些与 AUC 一致的损失函数,进一步揭示了指数损失和逻辑损失的相容界限以及在非噪
→
PDF
12 years ago
AdaBoost 算法的收敛速度
本文研究了 AdaBoost 算法的收敛速度,证明了其迭代收敛速度具有多项式上界,同时提供了针对多项式依赖的下界,在不需要弱学习假设和指数损失最小值有限等限制的情况下实现了优化的结果。
PDF
13 years ago
Prev
Next