具有部分参数化模型知识的强化学习
研究使用线性函数逼近和模拟器的查询和计算高效的计划算法,在这种情况下,我们提出了名为 “Confident MC-LSPI” 和 “Confident MC-Politex” 的两种算法,同时证明了我们的算法在特征,有效规划控制范围和目标次优性的维度中具有多项查询和计算成本,而这些成本与状态空间的大小无关。
Aug, 2021
通过世界模型估计真实环境以逼近最优策略的基于模型的强化学习方法,通过在高斯过程动态模型中强制施加似然噪声的下限来正则化策略更新,从而得到更健壮的控制器。
Oct, 2021
本文介绍了一种新的无模型算法,用于控制线性二次系统,利用 reduce 方法,将马尔科夫决策过程的控制问题转化为专家预测问题,该算法实现简单通用,拥有多项理论保证和良好的性能。
Apr, 2018
我们提出了基于近端策略优化的概率约束强化学习算法,通过使用 Lagrangian relaxation 将约束优化问题转换为无约束目标,从而在先进的核电厂设计中实现了最小违规距离和违规率。
Jan, 2024
通过使用参数化模型预测控制器作为策略并利用所需参数的少量,我们提出了一种带有超线性收敛率的限制拟牛顿训练算法进行策略优化。通过解线性方程组的解来计算所需的二阶导数信息。模拟研究表明,所提出的训练算法在数据效率和准确性方面优于其他算法。
May, 2024
本文对于一种学习控制策略进行了系统分析,该策略主要包括估计系统动态模型和应用轨迹优化算法来降低目标成本,我们提出了一种基于本地线性模型的算法,在重要的问题参数上获得了多项式的样本复杂度,并通过合成本地稳定增益,克服了问题时间影响的指数依赖性,我们的实验结果也验证了该算法的有效性并与自然深度学习基线进行了比较。
May, 2023
本文提出了基于概率模型预测控制(MPC)的基于模型的 RL 框架,以减少与环境的相互作用次数的方法。该方法使用高斯过程学习概率转换模型来减少模型误差的影响,同时使用 MPC 找到最小化预期长期成本的控制序列,以达到在受限环境下使用 RL 的目的。
Jun, 2017
本文研究了连续状态动作空间中强化学习的基于模型的后验抽样(PSRL),提出了第一个后验抽样的遗憾上界,并开发了 MPC–PSRL 算法来选择动作,通过贝叶斯线性回归捕获模型中的不确定性,在基准连续控制任务中实现了最先进的样本效率,并与无模型算法的渐近性能相匹配。
Nov, 2020