TL;DR本文研究交叉熵方法在非凸优化中的应用,并提出了一种可微分的变体。在应用上,我们在合成能源预测任务和非凸连续控制中展示了其效果。特别是,我们展示了如何将最优的行动序列嵌入到一个低维空间中进行控制,从而通过策略优化来对基于 CEM 的控制器进行微调。
Abstract
We study the cross-entropy method (CEM) for the non-convex optimization of a
continuous and parameterized objective function and introduce a differentiable
variant that enables us to differentiate the output of C