Mar, 2018

能量熵竞争及其对随机梯度下降在机器学习中的有效性影响

TL;DR研究发现,针对机器学习中许多问题,大多数采用随机梯度下降算法,并能够在实践中实现最佳结果,但通常无法达到全局最小值,其实际效果至今仍是一个谜,本文研究了参数推断和统计物理中的自由能最小化之间的对应关系,证明了宽而浅的极小值在系统欠采样时是最优的,同时还显示该算法的随机性具有非平凡的相关结构,会使其有偏地偏向于宽的极小值。