BriefGPT.xyz
Ask
alpha
关键词
informative examples
搜索结果 - 1
分布式重要性采样在 SGD 中的方差减少
该研究提出一种分布式深度学习框架,其中一组工作者并行搜索最具信息性的示例,而单个工作者则使用重要性抽样方法更新模型。实验证明,当采样提议与梯度的 L2 范数成正比时,该方法可以减少梯度方差,即使在跨机器同步成本不可忽略且重要性抽样因子不会立
→
PDF
9 years ago
Prev
Next