BriefGPT.xyz
Ask
alpha
关键词
non-convex objectives
搜索结果 - 4
服务器端步长和无替换采样在联邦优化中被证明有效
本文研究了在联邦学习中的服务端优化问题,运用随机重排等技术,证明在使用 Federated Averaging 算法的情况下,通过调整本地学习率,可以显著提高求解凸优化和非凸优化问题的效果。同时,通过选择合适的本地学习率,可以有效克服通信瓶
→
PDF
2 years ago
ICLR
非凸学习中带噪声梯度方法的泛化误差界
本文应用 Bayes-Stability 框架证明算法相关的广义误差界,得到了随机梯度 Langevin 动力学以及其他一些带噪声梯度的方法(例如加动量,小批量和加速,熵 - SGD)的数据相关的新广义误差界,论文结果较之前相关研究更紧凑。
PDF
5 years ago
Frank-Wolfe 算法在非凸目标中的收敛速率
该研究提供了一个简单的证明,表明 Frank-Wolfe 算法在具有 Lipschitz 连续梯度的非凸目标上,以 O(1 /sqrt {t})的速率获得静止点。
PDF
8 years ago
并行 SGD:何时使用平均有帮助?
研究了多个工作者独立运行 SGD 并定期平均模型的常见但未被充分理解的做法,探讨了模型平均作为方差减少机制的两种方式,并说明了平均频率对收敛的影响,对于凸目标函数,频繁平均的好处依赖于梯度方差包络,在非凸目标函数中,该好处取决于多个全局最优
→
PDF
8 years ago
Prev
Next