线性动态系统中带快速稳定的强化学习
该论文提出了一种考虑安全性的学习算法,利用 Lyapunov 稳定性检验的控制理论结果和动力学统计模型,得到具备可证明稳定性证书的高性能控制策略,并通过高斯过程先验进一步保证数据安全性和提高控制性能。在反演摆模拟实验中表现出安全性高、控制性能良好的特点。
May, 2017
本研究针对非线性动态系统的控制问题,提出了一种通过最小化控制器损失和在任意系统中都能达到最佳实例速率的算法,该算法通过策略优化来实现优化实验设计,从而降低系统的参数不确定性。
Jun, 2023
我们研究了控制具有已知嘈杂动力学和对抗选择二次损失的线性时不变系统的问题,并提出了第一种在这种情况下保证 O(sqrt(T))遗憾的有效在线学习算法。我们的算法依赖于对系统稳态分布的新型 SDP 松弛。与以前提出的松弛相反,我们的 SDP 的可行解都对应于 “强稳定” 策略,这些策略混合到稳定状态的速度呈指数增长。
Jun, 2018
论文研究了通过调节策略的输入输出梯度,可以基于可行性半定规划问题获得健壮稳定性的保证,并通过应用于两个去中心化控制任务,证明强化学习代理可以在稳定控制参数空间中具有高性能和长期稳定的学习行为。
Oct, 2018
我们开发了一种可证明安全和收敛的非线性动态系统控制的强化学习算法,填补了控制理论的强安全性保证和强化学习理论的收敛保证之间的差距。我们的方法通过单阶段的基于采样的方式,在学习过程和实际应用中满足硬约束条件,同时享有经典的收敛保证,我们在仿真环境中验证了我们方法的有效性,包括一个具有挑战性障碍避免问题的四旋翼无人机的安全控制,并证明其胜过现有的基准模型。
Mar, 2024
本研究提出一种基于学习的联合稳定化算法,通过对不稳定状态轨迹数据的处理快速学习所有系统的稳定化策略,从而解决了基于联合多系统自适应控制的快速可靠联合稳定化问题。
Jan, 2022
使用经典控制理论中的 Lyapunov 方法,为控制系统提供稳定性保证的 actor-critic RL 框架,确保在一定程度的不确定性干扰下,学习到的策略使得系统能够恢复到平衡或航点。
Apr, 2020
在处理未知真实系统参数的在线自适应控制问题中,使用新的上下界结论证明误差的最优性跟时间步数,输入空间和系统状态空间的维度呈现为~(T*d_u^2*d_x)^1/2, 并引入自绑定 ODE 方法控制 Riccati 方程扰动,从而实现任意可控系统实例的回归上界。同时,提出对估计的系统动力学进行合成的确定性等效控制器。
Jan, 2020
探索如何通过一个稳健的框架解决非稳态环境下的强化学习问题,其中该框架通过识别不同的环境、触发探索、将先前环境的知识保留下来以及保护系统性能来训练 RL agent,并且在解决一些系统问题时进行了验证。
Jan, 2022
提出了一种新的学习稳定非线性动态系统的框架,其中包括控制理论正则化器,以用于机器人连续控制任务,并且通过将稳定性概念根源化来保证稳定性的存在。
Jul, 2019