主动学习强化学习：一种随机最优控制方法

Sep, 2023

主动学习强化学习：一种随机最优控制方法

Actively Learning Reinforcement Learning: A Stochastic Optimal Control Approach

Mohammad S. Ramadan, Mahmoud A. Hayajnh, Michael T. Tolley, Kyriakos G. Vamvoudakis

TL;DR本文提供了一个应对强化学习的框架，解决了建模不确定性和计算成本高的问题，通过使用强化学习来解决随机动态规划方程，所得的强化学习控制器对多种类型的约束条件是安全的，并且可以主动学习建模不确定性，实现实时学习。通过模拟实例证明了提出方法的有效性。

Abstract

In this paper we provide framework to cope with two problems: (i) the fragility of reinforcement learning due to modeling uncertainties because of the mismatch between controlled laboratory/simulation and real-wo

reinforcement learning modeling uncertainties stochastic optimal control constraints real-time learning

发现论文，激发创造

延迟随机环境中的控制：基于模型的强化学习方法

本文介绍了一种用于具有延迟反馈环境中的控制问题的新的强化学习方法，该方法采用了随机规划而非以前使用的确定性规划方法，从而在策略优化问题中嵌入了风险偏好。我们展示了该方法能够恢复具有确定性转换的问题的最优策略，并将其与文献中的两种先前方法进行对比。我们将该方法应用于简单任务以了解其特点，然后比较了这些方法在控制多个 Atari 游戏方面的性能。

Feb, 2024

具有稳定性保证的安全基于模型的强化学习

该论文提出了一种考虑安全性的学习算法，利用 Lyapunov 稳定性检验的控制理论结果和动力学统计模型，得到具备可证明稳定性证书的高性能控制策略，并通过高斯过程先验进一步保证数据安全性和提高控制性能。在反演摆模拟实验中表现出安全性高、控制性能良好的特点。

May, 2017

谨防不确定性：风险意识和积极探索模型的基于强化学习

我们引入了一种简单而有效的方法来管理基于模型的强化学习中的风险，该方法使用了概率安全约束、在确知不确定性面前的乐观和在事件性不确定性面前的悲观以及一组随机神经网络的平衡。各种实验证明，不确定性的分离对于在不确定和安全关键的控制环境中使用数据驱动的 MPC 方法表现良好是至关重要的。

Sep, 2023

自主车辆上的安全强化学习

本研究探讨了如何通过预测来约束探索，从而实现强化学习在自动驾驶中的安全学习。

Sep, 2019

在线稳定强化学习框架

本篇论文介绍了一种将在线增强学习与经典控制的元素（基于 Lyapunov 稳定性理论）进行结合的方法，可在不进行长期预训练的情况下为移动机器人提供稳定的控制能力，并通过实验研究证明了该方法的有效性。

Jul, 2022

风险敏感和鲁棒的基于模型的强化学习和规划

本研究主要关注序列决策算法中的不确定性和风险问题，通过探索规划和强化学习两种方法，尤其是面向基于模型算法的研究，旨在缓解 epistemic 和 aleatoric 不确定性问题。

Apr, 2023

强化学习与控制的概率推断：教程与综述

该研究介绍了一种基于最大熵的强化学习或最优控制方法，该方法在确定性动力学和随机动力学方面分别相当于精确概率推断和变分推断，并探讨了相关算法和未来研究方向。

May, 2018

基于数据驱动的实时高效强化学习算法的 H∞控制：应用于自动化移动出行系统

基于 Q 学习的算法解决线性离散时间系统的 H∞控制，并实现了模型无关的参数在线学习，从而将计算复杂性降低到 qu 的平方，其中 q 是状态变量、控制输入和干扰大小之和。

Sep, 2023

用于非线性系统控制导向识别的主动学习

模型基础的强化学习是控制未知系统有效的方法，本文聚焦于具有非线性参数依赖的模型，并展示了适用于一类非线性动力学问题的主动学习算法的有限样本分析。

Apr, 2024

基于采样的安全强化学习在非线性动力系统中的应用

我们开发了一种可证明安全和收敛的非线性动态系统控制的强化学习算法，填补了控制理论的强安全性保证和强化学习理论的收敛保证之间的差距。我们的方法通过单阶段的基于采样的方式，在学习过程和实际应用中满足硬约束条件，同时享有经典的收敛保证，我们在仿真环境中验证了我们方法的有效性，包括一个具有挑战性障碍避免问题的四旋翼无人机的安全控制，并证明其胜过现有的基准模型。

Mar, 2024