具有部分参数化模型知识的强化学习

Apr, 2023

具有部分参数化模型知识的强化学习

Reinforcement Learning with Partial Parametric Model Knowledge

Shuyuan Wang, Philip D. Loewen, Nathan P. Lawrence, Michael G. Forbes, R. Bhushan Gopaluni

TL;DR本文提出了一种基于部分模型信息和数据驱动适应的强化学习方法，应用于连续控制问题，并在使用线性二次型调节器进行的数值实验中验证了该方法的有效性和优势。

Abstract

We adapt reinforcement learning (RL) methods for continuous control to bridge the gap between complete ignorance and perfect knowledge of the environment. Our method, →

reinforcement learning continuous control partial knowledge least squares policy iteration linear quadratic regulator

发现论文，激发创造

信息论模型预测 Q 学习

本研究提出了一种基于信息理论模型预测控制和熵正则化强化学习的 Q 学习算法，可以利用有偏模型，并在模拟控制任务中验证了该算法的有效性。

Dec, 2019

使用线性函数逼近实现高效的本地规划

研究使用线性函数逼近和模拟器的查询和计算高效的计划算法，在这种情况下，我们提出了名为 “Confident MC-LSPI” 和 “Confident MC-Politex” 的两种算法，同时证明了我们的算法在特征，有效规划控制范围和目标次优性的维度中具有多项查询和计算成本，而这些成本与状态空间的大小无关。

Aug, 2021

基于概率模型的策略搜索学习鲁棒控制器

通过世界模型估计真实环境以逼近最优策略的基于模型的强化学习方法，通过在高斯过程动态模型中强制施加似然噪声的下限来正则化策略更新，从而得到更健壮的控制器。

Oct, 2021

基于专家预测的无模型线性二次控制

本文介绍了一种新的无模型算法，用于控制线性二次系统，利用 reduce 方法，将马尔科夫决策过程的控制问题转化为专家预测问题，该算法实现简单通用，拥有多项理论保证和良好的性能。

Apr, 2018

电厂监控的安全强化学习算法

我们提出了基于近端策略优化的概率约束强化学习算法，通过使用 Lagrangian relaxation 将约束优化问题转换为无约束目标，从而在先进的核电厂设计中实现了最小违规距离和违规率。

Jan, 2024

通过信任域拟 - 牛顿策略优化强化模型预测控制

通过使用参数化模型预测控制器作为策略并利用所需参数的少量，我们提出了一种带有超线性收敛率的限制拟牛顿训练算法进行策略优化。通过解线性方程组的解来计算所需的二阶导数信息。模拟研究表明，所提出的训练算法在数据效率和准确性方面优于其他算法。

May, 2024

非线性策略优化中学习本地线性模型的威力

本文对于一种学习控制策略进行了系统分析，该策略主要包括估计系统动态模型和应用轨迹优化算法来降低目标成本，我们提出了一种基于本地线性模型的算法，在重要的问题参数上获得了多项式的样本复杂度，并通过合成本地稳定增益，克服了问题时间影响的指数依赖性，我们的实验结果也验证了该算法的有效性并与自然深度学习基线进行了比较。

May, 2023

基于概率模型预测控制的高效数据强化学习

本文提出了基于概率模型预测控制（MPC）的基于模型的 RL 框架，以减少与环境的相互作用次数的方法。该方法使用高斯过程学习概率转换模型来减少模型误差的影响，同时使用 MPC 找到最小化预期长期成本的控制序列，以达到在受限环境下使用 RL 的目的。

Jun, 2017

面向参数变化系统的模型自适应强化学习控制中的样本高效迁移

本文利用模型控制的思想解决了强化学习算法的样本效率问题，并通过四个基准实例验证了其性能。

May, 2023

基于模型的强化学习在连续控制中的后验采样

本文研究了连续状态动作空间中强化学习的基于模型的后验抽样（PSRL），提出了第一个后验抽样的遗憾上界，并开发了 MPC–PSRL 算法来选择动作，通过贝叶斯线性回归捕获模型中的不确定性，在基准连续控制任务中实现了最先进的样本效率，并与无模型算法的渐近性能相匹配。

Nov, 2020