May, 2023

非线性策略优化中学习本地线性模型的威力

TL;DR本文对于一种学习控制策略进行了系统分析,该策略主要包括估计系统动态模型和应用轨迹优化算法来降低目标成本,我们提出了一种基于本地线性模型的算法,在重要的问题参数上获得了多项式的样本复杂度,并通过合成本地稳定增益,克服了问题时间影响的指数依赖性,我们的实验结果也验证了该算法的有效性并与自然深度学习基线进行了比较。