BriefGPT.xyz
大模型
Ask
alpha
关键词
stepsize
搜索结果 - 3
逻辑损失的大步梯度下降:损失的非单调性提高了优化效率
使用常数步长的梯度下降算法应用于线性可分数据的逻辑回归,证明了在初始震荡阶段后,算法能够在 a 步的时间内实现 O (1/(aT)) 的收敛速率,从而在总步数为 T 的情况下,通过积极地调整步长可以达到 O (1/T^2) 的加速损失,无需
→
PDF
4 months ago
ICML
混合精度和自适应分辨率的可微分动态量化
我们提出了一种完全可微的方法,名为 differentiable dynamic quantization (DDQ),可用于学习模型量化中的所有超参数,通过实验表明 DDQ 在像 MobileNet 这样的轻量架构上表现最好,并且 DDQ
→
PDF
3 years ago
一种具有大步长的原始 - 对偶算法的新收敛分析
本文考虑了一种基于近似算子的新型 Primal-Dual 算法及其收敛性,证明了比以前更弱的步长条件下可以收敛,证明了该步长条件是重要的,也将其应用到了分布式 PG-EXTRA 算法并导出了最弱的收敛条件。
PDF
7 years ago
Prev
Next