强化学习的鲁棒非线性设定点控制

Apr, 2023

强化学习的鲁棒非线性设定点控制

Robust nonlinear set-point control with reinforcement learning

Ruoqi Zhang, Per Mattsson, Torbjörn Wigren

TL;DR探讨三种方法来改进强化学习方法以支持高度非线性的设定点控制问题：1）利用先验反馈控制器支持幅度探索；2）使用积分误差；3）模型集训练。这些方法的组合可导致更高效的训练和更健壮的设定点控制器，可直接应用于真实世界中的非线性系统。

Abstract

There has recently been an increased interest in reinforcement learning for nonlinear control problems. However standard reinforcement learning

reinforcement learning nonlinear control set-point control model ensembles real-world applications

发现论文，激发创造

支持强化学习的设定点控制

本文提出一种增强学习和反馈控制相结合的方法，其中反馈控制可以改善系统激发问题并提高收敛速度，这对于实现快速和准确的现实控制非常重要。作者在模拟和双水箱实验中评估了该方法并获得了有希望的结果。

Apr, 2023

用于非线性系统控制导向识别的主动学习

模型基础的强化学习是控制未知系统有效的方法，本文聚焦于具有非线性参数依赖的模型，并展示了适用于一类非线性动力学问题的主动学习算法的有限样本分析。

Apr, 2024

电厂监控的安全强化学习算法

我们提出了基于近端策略优化的概率约束强化学习算法，通过使用 Lagrangian relaxation 将约束优化问题转换为无约束目标，从而在先进的核电厂设计中实现了最小违规距离和违规率。

Jan, 2024

主动学习强化学习：一种随机最优控制方法

本文提供了一个应对强化学习的框架，解决了建模不确定性和计算成本高的问题，通过使用强化学习来解决随机动态规划方程，所得的强化学习控制器对多种类型的约束条件是安全的，并且可以主动学习建模不确定性，实现实时学习。通过模拟实例证明了提出方法的有效性。

Sep, 2023

连续时间强化学习：新设计算法的理论洞见和性能保证

连续时间非线性最优控制问题中的强化学习方法面临复杂性、数值条件和维度扩展等挑战。该论文介绍了新的强化学习算法，应用于仿射非线性系统的控制，并引入了新的激发框架以优化性能。

Jul, 2023

从自整定调节器到强化学习再回归

本文介绍了机器学习和强化学习在控制和规划自主系统行为方面的应用，同时强调在安全关键的环境下要特别注意算法的可靠性和安全性，为控制理论家们提供一个学习该领域的起点。

Jun, 2019

基于强化学习改进比例积分控制器在油门阀基准上的应用

本文提出了一种基于学习的控制策略，用于具有非对称滞后的非线性节流阀，从而实现接近最优的控制器，不需要任何关于环境的先验知识。通过仔细调整的比例积分器（PI）控制器并利用强化学习（RL）在引导策略上的最新进展，通过与阀门的额外交互学习改进闭环行为。我们在三个不同的阀门上的各种情况下测试了所提出的控制方法，所有情况都突出了结合 PI 和 RL 框架以改善非线性随机系统中的控制性能的好处。在所有实验测试用例中，所得到的代理比传统 RL 代理具有更好的样本效率，并且优于 PI 控制器。

Feb, 2024

机器人控制的残余强化学习

本文研究了如何通过将传统反馈控制方法与强化学习相结合，解决包括接触力和摩擦力在内的现代制造业中的机器人控制问题，并通过培训代理来演示我们的方法，成功地执行现实世界的块装配任务。

Dec, 2018

基于价值限制的无模型连续控制

提出了一种基于 Lagrangian relaxation 的约束强化学习方法，通过同时优化任务奖励和某些辅助成本来确保任务成功，展示了在连续控制基准任务、优化能量的四足动物运动任务以及实际机器人臂夹取任务上，该方法的有效性。

Feb, 2019

相当好的控制：何时近似解法比近似模型更好

现有的最优控制方法在处理真实系统中常遇到的复杂性（包括维度、过程误差、模型偏差和数据异质性）时遇到困难。最优控制方法通常寻求简化模型以适应，但何时适用于近似的、简化的模型的最优解胜过适用于更准确的模型的近似解尚未得到充分回答。深度强化学习（DRL）中的算法和计算进展为我们解决这些问题提供了可能性。DRL 方法迄今主要应用于游戏或机器人机械学中，在确切已知规则下运行。我们在没有了解或企图推断进程模型的情况下，展示了使用深度神经网络进行 DRL 算法的能力，成功近似求解了一个非线性三变量渔业模型的解（“策略函数” 或控制规则）。我们发现强化学习代理通过简化问题来获得可解释的控制规则。我们展示了 DRL 所获得的策略在渔业管理中既更具利润性，也更具可持续性，胜过了任何固定死亡率政策 —— 渔业管理中的标准政策家族。

Aug, 2023