ICMLNov, 2022

推广高斯平滑用于随机搜索

TL;DR通过从更大的分布族中采样扰动来选择波动分布,以最小化梯度估计的均方误差(MSE),提出了三个分布,其 MSE 比高斯平滑更小。通过在线性回归,强化学习和 DFO 基准测试中评估了三个采样分布以验证我们的说法,提案通过相同的计算复杂度改进了 GS,并且通常与计算成本更高的 Guided ES 和 Orthogonal ES 竞争甚至表现更好。