复杂和连续状态行动空间的专用深度残差策略安全强化学习控制器

Oct, 2023

复杂和连续状态行动空间的专用深度残差策略安全强化学习控制器

Specialized Deep Residual Policy Safe Reinforcement Learning-Based Controller for Complex and Continuous State-Action Spaces

PDF

Ammar N. Abbas, Georgios C. Chasparis, John D. Kelleher

TL;DR传统控制器有局限性，深度强化学习通过在环境中进行探索来学习最优控制策略，为安全关键环境提出专门的深度残差策略安全强化学习方法，并在 Tennessee Eastman 过程控制中进行验证。

Abstract

traditional controllers have limitations as they rely on prior knowledge about the physics of the problem, require modeling of dynamics, and struggle to adapt to abnormal situations. deep reinforcement learning h

traditional controllers deep reinforcement learning optimal control policies safe reinforcement learning tennessee eastman process control

发现论文，激发创造

针对连续动作空间的表示学习有助于有效的策略学习

本文提出了一种在潜在状态和动作空间中进行高效策略学习的方法，扩展了状态表示以达到更好的策略泛化能力，同时通过将整个学习任务划分为无监督学习和强化学习来减小了训练规模。最后，在 MountainCar、CarRacing 和 Cheetah 实验中证明了该方法的有效性。

Nov, 2022

连续动作空间中的安全探索

本文介绍了一种在物理系统（如数据中心冷却单元或机器人）中部署强化学习代理的方法，通过添加一层安全层，能够避免在学习过程中违反约束条件，并且通过在惯性路径上学习线性化模型解决了具有任意行动的问题。

Jan, 2018

连续动作空间下的多智能体系统安全强化学习

本文介绍了在深度强化学习模型中添加安全层以确保多智能体控制问题的安全性的方法，该方法采用线性化单步转换动态的思想，并使用软约束解决了实施步骤中的不可行性问题，在保证软约束的约束满足性的基础上实现了学习过程中的安全控制。

Aug, 2021

残差策略学习

本文介绍了一种简单的方法 —— 残差策略学习（Residual Policy Learning，RPL），用于改善使用模型自由深度强化学习来提高非可微策略。我们在面对复杂的机器人操作任务时，研究了 RPL 的应用，这些任务中存在良好但不完美的控制器。与从头开始的强化学习相比，RPL 在这些任务中可以获得显著的改进。在六个挑战性的 MuJoCo 任务中，我们将初始控制器设置为手动设计的策略和具有已知或学习转移模型的模型预测控制器。通过将学习与控制算法相结合，RPL 可以执行长时程、稀疏奖励任务，而仅使用强化学习则失败。此外，我们发现 RPL 在改善初始控制器方面一致且显著。我们认为 RPL 是结合深度强化学习和机器人控制互补优势的一种有前途的方法，推动了两者独立实现的边界。

Dec, 2018

可解释的、基于模型的层级安全强化学习框架

该论文提出了一种将深度强化学习与概率建模和决策策略相结合的新方法（BC-SRLA），该方法在安全关键系统中具有优越性能，并且在维护领域的案例研究中展示出了比先前技术和其他基准更好的表现。

Oct, 2023

强化学习中状态和动作空间的安全探索

本篇论文针对强化学习中的安全探索这一问题，提出 PI-SRL 算法在解决复杂任务，包括汽车停车、极杆平衡、直升机悬停和商业管理等方面具有安全性和高效性的优秀表现。

Feb, 2014

参数化行动空间下的深度强化学习

该论文研究了在 RoboCup 足球模拟领域中使用深度强化学习中的深度神经网络来处理参数化连续动作空间，成功地拓展了深度强化学习到参数化行动空间 MDPs 的类别，并比 2012 RoboCup 冠军代理更可靠地得分。

Nov, 2015

稳健且平滑的深度强化学习策略

提出了新的 Deep RL 框架 $ extbf {SR}^2 extbf {L}$，通过引入 smoothness-induced regularization，使学习到的 policy 对连续状态空间的过渡 smooth，提高抗扰动能力和样本效率。在 TRPO 和 DDPG 上实验表明，该方法取得了效果的提升。

Mar, 2020

连续随机动力学学习环境模型

通过深度强化学习、自动化学习和马尔可夫决策过程等技术，学习出由自主智能体控制的环境模型，以解决复杂环境下的控制问题，并在多个强化学习基准环境中验证了方法的有效性。

Jun, 2023

探索深度和循环结构用于最优控制

本文研究了多层神经网络在控制方面的应用，特别是在连续高维动作任务中，通过强化学习训练后实现了控制策略，结果表明可以成功训练具有成千上万个参数的神经网络控制器，并比较了各种不同结构。文章讨论了这一问题与以往有监督知觉任务的区别，呈现了实验结果，并讨论了将深度学习技术应用于控制问题优化的未来方向。

Nov, 2013