Dec, 2018

无导数策略优化方法:线性二次系统的保证

TL;DR本文研究了在线性策略的类别中,基于无导数法的策略优化方法。研究了不同的驱动噪声和奖励反馈设置,特别是应用于线性二次系统时的收敛速度,发现这些方法会在求解问题的误差、维度和曲率特性的确定的多项式次零阶求解下收敛至最优解水平,并发现了不同驱动噪声和奖励反馈设置下的一些有趣差异,最终在对这些系统进行广泛的模拟验证下进行计算。此外,我们也研究了基于零阶优化算法的随机非凸问题的收敛速度。