Sep, 2022

通过转移模型学习连续控制策略

TL;DR通过学习过渡模型,我们可以使用它来驱动摊销政策的学习。因此,我们重访了政策优化并描述了一个模块化神经网络架构,该架构从预测错误中同时学习了系统动力学和生成适当连续控制命令的随机策略,并通过与线性二次调节器的基线进行比较来评估模型。