连续时间强化学习：新设计算法的理论洞见和性能保证

Jul, 2023

连续时间强化学习：新设计算法的理论洞见和性能保证

Continuous-Time Reinforcement Learning: New Design Algorithms with Theoretical Insights and Performance Guarantees

Brent A. Wallace, Jennie Si

TL;DR连续时间非线性最优控制问题中的强化学习方法面临复杂性、数值条件和维度扩展等挑战。该论文介绍了新的强化学习算法，应用于仿射非线性系统的控制，并引入了新的激发框架以优化性能。

Abstract

continuous-time nonlinear optimal control problems hold great promise in real-world applications. After decades of development, reinforcement learning (RL) has achieved some of the greatest successes as a general

continuous-time nonlinear optimal control problems reinforcement learning adaptive dynamic programming affine nonlinear systems excitable integral reinforcement learning

发现论文，激发创造

基于数据驱动的实时高效强化学习算法的 H∞控制：应用于自动化移动出行系统

基于 Q 学习的算法解决线性离散时间系统的 H∞控制，并实现了模型无关的参数在线学习，从而将计算复杂性降低到 qu 的平方，其中 q 是状态变量、控制输入和干扰大小之和。

Sep, 2023

连续的状态 - 动作空间中的近连续时间强化学习

通过使用泊松时钟模型与连续时间，本研究旨在克服强化学习中离散时间与离散状态的局限性，并且提出了一个算法来应对连续时间下的学习和规划任务，其在近连续时间中实现了阶悔恨度为 $\tilde {\mathcal {O}}(\sqrt {T})$ 的性能。

Sep, 2023

强化学习算法在倒立摆问题上的比较

本文研究了在没有先验动态知识的情况下，利用强化学习算法（如时间差分、策略梯度、价值函数逼近）对基准车杆动力系统进行控制的最优控制策略，进一步提出了将强化学习和摆起控制器相结合的新方法。

Oct, 2018

连续时间延迟系统的神经拉普拉斯控制

提出了一种基于神经拉普拉斯动态模型与模型预测控制理论相结合的离线学习算法，能够学习到具有固有未知延迟难以处理的实时反馈系统，实验证明其性能接近专家策略。

Feb, 2023

深度强化学习的连续控制

本论文将 Deep Q-Learning 算法应用于连续动作域，并提出了一种基于确定性策略梯度的演员 - 评论家模型无模型算法，可在连续动作空间中进行操作，成功解决了 20 多个模拟物理任务，并能与完全访问动态并了解其导数的规划算法相竞争，并证明该算法对许多任务能够进行端到端学习。

Sep, 2015

基于采样的安全强化学习在非线性动力系统中的应用

我们开发了一种可证明安全和收敛的非线性动态系统控制的强化学习算法，填补了控制理论的强安全性保证和强化学习理论的收敛保证之间的差距。我们的方法通过单阶段的基于采样的方式，在学习过程和实际应用中满足硬约束条件，同时享有经典的收敛保证，我们在仿真环境中验证了我们方法的有效性，包括一个具有挑战性障碍避免问题的四旋翼无人机的安全控制，并证明其胜过现有的基准模型。

Mar, 2024

电厂监控的安全强化学习算法

我们提出了基于近端策略优化的概率约束强化学习算法，通过使用 Lagrangian relaxation 将约束优化问题转换为无约束目标，从而在先进的核电厂设计中实现了最小违规距离和违规率。

Jan, 2024

多智能体系统的深度强化学习：挑战、解决方案和应用综述

此篇论文介绍了多智能体深度强化学习的不同方法，包括非静态性、部分可观测性、连续的状态和操作空间、多智能体训练机制、多智能体转移学习，并分析和讨论了这些方法的优缺点及其相关应用，旨在促进更加健壮和高效的多智能体学习方法的发展。

Dec, 2018

什么时候进行感知和控制？一种适应时间的连续时间强化学习方法

优化系统学习离散时间决策进程的强化学习算法，以减少与系统的交互次数并提高性能，同时提出了时间自适应控制和感知（TaCoS）框架以及 OTaCoS 模型算法。

Jun, 2024

强化学习的鲁棒非线性设定点控制

探讨三种方法来改进强化学习方法以支持高度非线性的设定点控制问题：1）利用先验反馈控制器支持幅度探索；2）使用积分误差；3）模型集训练。这些方法的组合可导致更高效的训练和更健壮的设定点控制器，可直接应用于真实世界中的非线性系统。

Apr, 2023