Nov, 2015

分布式重要性采样在 SGD 中的方差减少

TL;DR该研究提出一种分布式深度学习框架,其中一组工作者并行搜索最具信息性的示例,而单个工作者则使用重要性抽样方法更新模型。实验证明,当采样提议与梯度的 L2 范数成正比时,该方法可以减少梯度方差,即使在跨机器同步成本不可忽略且重要性抽样因子不会立即更新的情况下也是如此。