Feb, 2017

面向未知预测:基于在线系统认知学习通用策略

TL;DR通过利用物理模拟器生成的大量训练样本,我们提出了一种新的学习控制策略的方法,该方法可以成功地在未知的动态模型下运行。我们的系统由通用策略(UP)和在线系统识别(OSI)函数两部分组成,通过UP的训练和在系统状态下提供的来自OSI的mu值进行控制,我们的UP-OSI是一个可以在各种动态模型下使用的鲁棒控制策略。