Jul, 2016

连续状态 - 动作非高斯系统的集中模型学习和规划

TL;DR引入了一个针对具有连续状态和动作空间以及非高斯转移模型的随机域的模型学习和规划框架。该框架高效,因为只有在计划器需要它们时才估计局部模型;计划器集中于当前规划问题的最相关状态;计划器专注于信息最丰富和 / 或价值最高的动作。我们的理论分析显示了所提出方法的有效性和渐近最优性。在实验上,我们在模拟的多模式推动问题上展示了我们算法的有效性。